In den letzten Jahren hat die Künstliche Intelligenz (KI) enorme Fortschritte gemacht. Die Entwicklung neuer AI-Beschleuniger, die das Training und Inferencing von komplexen KI-Modellen ermöglichen, steht dabei besonders im Mittelpunkt. Das Unternehmen Cerebras hat mit seinem neuesten AI-Beschleuniger CS-3, welcher auf der Wafer-Scale Engine der dritten Generation (WSE-3) basiert, eine neue Dimension erreicht. Mit 4 Billionen Transistoren und 900.000 Kernen bringt Cerebras eine Technologie auf den Markt, die die Größe eines kompletten Wafers hat und in Sachen Leistungsfähigkeit neue Maßstäbe setzt.
Die WSE-3 wurde in der fortschrittlichen TSMC N5-Technologie gefertigt und ist speziell für Tensor-basierte, dünn besetzte (sparse) linear-algebraische Operationen optimiert. Diese sind essenziell für das Training neuronaler Netze und das Inferencing im Bereich des tiefen Lernens (Deep Learning). Mit einer Größe von 46.225 mm² und 44 GB SRAM auf dem Chip, der mit einer Bandbreite von 21 Petabyte/s arbeitet, übertrifft die WSE-3 deutlich die Spezifikationen gängiger Lösungen wie dem Nvidia H100.
Die Architektur der WSE-3 ermöglicht es, dass bis zu 2.048 dieser Systeme zu einem Hyperscale-AI-Supercomputer zusammengeschlossen werden können, der eine KI-Leistung von 256 ExaFLOPS bietet. Diese Leistungsfähigkeit erlaubt es beispielsweise, das Large Language Model Llama2-70B von Meta in weniger als einem Tag von Grund auf neu zu trainieren – eine Aufgabe, für die Metas derzeitiges GPU-Cluster einen ganzen Monat benötigt.
Neben dem beeindruckenden On-Chip-Speicher bietet Cerebras zusätzliche MemoryX-Einheiten an, die mit DRAM und Flash-Speicher ausgestattet sind und über das High-Speed SwarmX-Fabric mit 214 Petabit/s angebunden werden. Diese Erweiterungsmodule sind in unterschiedlichen Größen verfügbar und können in den größten Ausführungen bis zu 24 Billionen Parameter speichern. Damit werden Large Language Models ermöglicht, die eine Größenordnung über bestehenden Modellen wie GPT-4 und Gemini liegen.
Trotz der enormen Leistungssteigerung bleibt der Energieverbrauch eines einzelnen CS-3-Systems im Vergleich zur vorherigen Generation CS-2 konstant bei 23 kW. Allerdings müssen zusätzliche Verbraucher wie die MemoryX-Einheiten in die Gesamtbilanz einbezogen werden.
Cerebras hat bereits einen ersten AI-Supercomputer auf Basis des CS-3 angekündigt, den Condor Galaxy 3 (CG-3), welcher 64 CS-3-Systeme nutzt und auf 58 Millionen Kerne und 8 ExaFLOPS kommt. Mit der Fertigstellung dieses Supercomputers im Laufe des zweiten Quartals wird eine Gesamtleistung von 16 ExaFLOPS angestrebt. Zu den bisherigen Kunden von Cerebras gehören renommierte Institutionen wie die Mayo Clinic, GlaxoSmithKline und das Argonne National Laboratory.
Dieser technologische Durchbruch verspricht, die Möglichkeiten im Bereich KI enorm zu erweitern und die Entwicklung von Large Language Models sowie anderen anspruchsvollen KI-Anwendungen erheblich zu beschleunigen. Mit dem CS-3 und der WSE-3 setzt Cerebras neue Maßstäbe in der KI-Forschung und -Entwicklung und positioniert sich als ernstzunehmender Konkurrent für etablierte Akteure wie Nvidia.
Quellen:
- La Rocco, Nicolas. „Cerebras CS-3 mit WSE-3: AI-Beschleuniger in Wafergröße hat 4 Billionen Transistoren.“ ComputerBase, 13. März 2024, https://www.computerbase.de/2024-03/cerebras-cs-3-mit-wse-3-ai-beschleuniger-in-wafergroesse-hat-4-billionen-transistoren/.
- „Cerebras CS-3 mit WSE-3: AI-Beschleuniger in Wafergröße hat 4 Billionen Transistoren.“ ComputerBase Forum, https://www.computerbase.de/forum/threads/cerebras-cs-3-mit-wse-3-ai-beschleuniger-in-wafergroesse-hat-4-billionen-transistoren.2187975/.
- „Cerebras WSE2: Dieser AI-Prozessor braucht über 20 Kilowatt.“ Golem.de, April 2021, https://www.golem.de/news/cerebras-wse2-dieser-ai-prozessor-braucht-ueber-20-kilowatt-2104-155931.html.
- Ray, Tiernan. „AI startup Cerebras unveils the WSE-3, the largest chip yet for generative AI.“ ZDNet, 13. März 2024, https://www.zdnet.com/article/ai-startup-cerebras-unveils-the-largest-chip-yet-for-generative-ai/.