Projekt Ceiba

Bau eines der weltweit größten KI-Supercomputer in der Cloud

Bau eines der weltweit größten KI-Supercomputer in der Cloud

Projekt Ceiba, eine bahnbrechende Zusammenarbeit zwischen AWS und NVIDIA, zielt darauf ab, die Grenzen der künstlichen Intelligenz (KI) zu erweitern, indem einer der weltweit größten KI-Supercomputer in der Cloud gebaut wird. Dieser hochmoderne Supercomputer, der exklusiv auf AWS gehostet wird, wird die Forschungs- und Entwicklungsbemühungen von NVIDIA im Bereich KI vorantreiben

Vorantreiben von wegweisenden Innovationen

Die Forschungs- und Entwicklungsteams von NVIDIA werden die immense Leistung von Project Ceiba nutzen, um Fortschritte in einer Vielzahl von innovativen Bereichen zu erzielen, darunter große Sprachmodelle (LLMs), Grafiken (Bilder, Videos und 3D-Generierung), Simulationen, digitale Biologie, Robotik, autonome Fahrzeuge, Klimavorhersagen mit NVIDIA Earth-2 und vieles mehr. Diese bahnbrechende Initiative wird die Arbeit von NVIDIA zur Weiterentwicklung der generativen KI vorantreiben und die Zukunft der künstlichen Intelligenz und ihrer Anwendungen in verschiedenen Bereichen prägen.

Entwurfsmuster

Skalierbare KI-Infrastruktur

Projekt Ceiba wird über die NVIDIA DGX Cloud-Architektur verfügbar sein. DGX Cloud ist eine skalierbare KI-Plattform für Entwickler, die auf der neuesten NVIDIA-Architektur basiert und auf jeder Ebene mit AWS entwickelt wurde. DGX Cloud wird noch in diesem Jahr auf AWS verfügbar sein, und AWS wird der erste Cloud-Service-Anbieter sein, der die auf der NVIDIA Blackwell-Architektur basierende DGX Cloud mit GB200s anbietet. Das Projekt Ceiba basiert auf der speziell für AWS entwickelten KI-Infrastruktur, die so konzipiert ist, dass sie die immense Skalierung, die verbesserte Sicherheit und die beispiellose Leistung bietet, die für einen Supercomputer dieser Größenordnung erforderlich sind.

Entwurfsmuster

Exaflops an künstlicher Intelligenz verarbeitet, rund 375-mal leistungsfähiger als der derzeit schnellste Supercomputer der Welt, Frontier

pro Superchip, ermöglicht blitzschnelle Datenübertragung und Verarbeitung

NVIDIA-Blackwell-GPUs, der erste Supercomputer seiner Art

Funktionen

Dieses gemeinsame Projekt hat mehrere Meilensteine gesetzt, die die Branche definieren:
Die Konfiguration von Project Ceiba umfasst 20 736 NVIDIA GB200 Grace Blackwell Superchips. Dieser Supercomputer der ersten Generation wurde mit dem neuesten GB200 NVL72 von NVIDIA gebaut, einem flüssigkeitsgekühlten Rack-System mit NVLink der fünften Generation, das auf 20 736 Blackwell-Grafikprozessoren skaliert werden kann, die mit 10 368 NVIDIA Grace-CPUs verbunden sind. Dieser Supercomputer kann eine gewaltige KI-Leistung von 414 Exaflops verarbeiten, was etwa 375-mal mehr ist als die Leistung des derzeit schnellsten Supercomputers der Welt, Frontier. Wenn man die gesamte derzeitige Supercomputer-Kapazität der Welt zusammenfassen würde, käme man nicht einmal auf 1 % der Rechenleistung, die 414 Exaflops darstellen. Um dies in die richtige Perspektive zu rücken: Es entspricht der Leistung von über 6 Milliarden der weltweit modernsten Laptops, die im Tandem arbeiten. Um dies noch weiter zu verdeutlichen: Wenn jeder Mensch auf der Erde eine Berechnung pro Sekunde durchführen würde, würde es über 1 660 Jahre dauern, bis er das erreicht hätte, was das Projekt Ceiba in nur einer Sekunde schafft.

Projekt Ceiba ist das erste System, das die enormen Skalierungsmöglichkeiten nutzt, die durch die Vernetzung der vierten Generation des AWS Elastic Fabric Adapter (EFA) ermöglicht werden, und bietet einen beispiellosen Netzwerkdurchsatz von 1 600 Gbit/s pro Superchip mit geringer Latenz und hoher Bandbreite, der eine blitzschnelle Datenübertragung und -verarbeitung ermöglicht. 

Flüssigkeitskühlung gibt es schon seit Jahren. Gamer kennen sie von ihren persönlichen Gaming-Computern. Es handelt sich nicht um eine neue Technologie – und AWS hat vor dem Projekt Ceiba bewusst die Luftkühlung der Flüssigkeitskühlung vorgezogen hat, weil dies aus Kostengründen sinnvoll war. Doch um die Herausforderungen der Leistungsdichte zu bewältigen und diese beispiellose Rechenleistung im Rahmen des Projekts Ceiba bereitzustellen, hat AWS die Nutzung der Flüssigkeitskühlung in Rechenzentren skaliert, um effizientere und nachhaltigere Hochleistungs-Computing-Lösungen zu ermöglichen.

Projekt Ceiba wird branchenführende Sicherheitsfunktionen enthalten, die darauf ausgelegt sind, selbst die sensibelsten KI-Daten zu schützen. Die NVIDIA Blackwell GPU-Architektur, die eine sichere Kommunikation zwischen den in AWS Nitro System und EFA-Technologien integrierten GPUs ermöglicht, wird eine sichere Ende-zu-Ende-Verschlüsselung der Daten für generative KI-Workloads ermöglichen. Diese gemeinsame Lösung ermöglicht die Entschlüsselung und das Laden sensibler KI-Daten in die GPUs, während die vollständige Isolierung von den Infrastrukturbetreibern aufrechterhalten wird. Dabei wird die Authentizität der zur Verarbeitung der Daten verwendeten Anwendungen überprüft. Mit dem Nitro System können Kunden ihre Anwendungen für das AWS Key Management System (KMS) kryptografisch validieren und Daten nur entschlüsseln, wenn die erforderlichen Prüfungen bestanden wurden. So wird eine durchgängige Verschlüsselung der Daten sichergestellt, während diese generative KI-Workloads durchlaufen. Lesen Sie diesen Blog und besuchen Sie die Website zur sicheren KI, um mehr zu erfahren.