Interview: Platz 1 im Green500-Ranking

Die Hintergründe und Ausblick auf den europäischen Exascale-Supercomputer JUPITER

13. Mai 2024

Der europäische Exascale-Superrechner JUPITER am Forschungszentrum Jülich soll wissenschaftliche Simulationen auf eine neue Stufe heben und Durchbrüche bei der künstlichen Intelligenz ermöglichen. Gleichzeitig ist das System ein echter Vorreiter in Sachen Energieeffizienz. Sein Vorbote, das „JUPITER Exascale Development Instrument“ oder kurz JEDI, kam im Mai 2024 direkt auf Platz 1 der Green500-Liste der energieeffizientesten Supercomputer. Im Interview erklärt Prof. Dr. Dr. Thomas Lippert, Direktor des Jülich Supercomputing Centre, was es mit dem neuen Jülicher Effizienz-Rekord auf sich hat.

Interview: Platz 1 im Green500-Ranking
Prof. Dr. Dr. Thomas Lippert, Direktor des Jülich Supercomputing Centre. Copyright: Forschungszentrum Jülich / Sascha Kreklau

Herr Prof. Dr. Dr. Thomas Lippert, wie genau kommt man eigentlich auf die Green500? Wie läuft so eine Messung ab?

Die Green500 Liste wird parallel zur TOP500-Liste der leistungsstärksten Supercomputer der Welt veröffentlicht. Sie beinhaltet nur Systeme, die auf der TOP500 sind. Der Fokus ist aber ein anderer. Es kommt nicht auf maximale Performance an, sondern auf die maximale Performance pro Watt – also die Effizienz, unter Berücksichtigung der Leistungsaufnahme des Rechners.

Entscheidend ist der gleiche Benchmark wie bei der TOP500, der sogenannte High-Performance Linpack, kurz HPL. Es geht darum, lineare Gleichungssysteme mit doppelter Genauigkeit zu lösen.  Während der Ausführung des HPL wird die Leistungsaufnahme der beteiligten Komponenten in festen Intervallen gemessen. So wird ermittelt, wie viele Gleitkommaoperationen pro Sekunde und pro Watt erreicht werden können. Wie lange so ein Testlauf genau dauert, hängt von der Größe des Systems ab. Im Fall des JEDI-Systems waren es etwa 10 Minuten.

Was sind die Gründe für die außergewöhnliche Effizienz?

Die wichtigste Rolle spielen neben der umgebenden Rack-Infrastruktur die verwendeten Recheneinheiten. Es wurde eine möglichst effiziente Version des NVIDIA Grace Hopper Superchips (GH200 )ausgewählt, der eine maximale Performance pro Watt bietet. Die NVIDIA Grace-CPU nutzt, anders als große Teile der Konkurrenz, die sogenannte ARM-Prozessorarchitektur. Der Chip verfügt über eine sehr hohe Zahl an Rechenkernen und eignet sich damit ideal für rechenintensive Aufgaben. Gleichzeitig ist er im Ruhezustand effizienter als vergleichbare Prozessoren. Mit Low-Power-DDR vom Typ LPDDR5x benutzt Grace darüber hinaus einen Arbeitsspeicher, der besonders wenig Energie verbraucht. Der energieintensive Part des Superchips, die Hopper GPU, ist über den Superchip flexibler zu verwalten als mit dedizierten CPUs.

Bereits ohne Optimierungen konnte die Hardware des JEDI-Systems den ersten Platz der Green500 Liste aus dem November 2023 erreichen. Nachdem sich dieser Erfolg bereits früh in der Installation gezeigt hat, wurden anschließend noch verschiedene Parameter getestet, um zu evaluieren, welche Optimierungen die Hardware erlaubt. Gängige Parameter sind dabei beispielsweise die Abschaltung oder feste, also statische, Zuweisung von Prozessorkernen. Ein weiterer interessanter Parameter ist auch die Taktrate von Prozessoren und Grafikbeschleunigern (GPU). Hier haben wir am JSC bereits während der Energiekrise der letzten Jahre Experimente durchgeführt, um die Performance pro Watt auf unserem derzeitigen Flaggschiff, dem JUWELS Booster, zu optimieren. Diese Erkenntnisse werden wir nun auf den kommenden JUPITER-Rechner übertragen.

Zu welchem Zweck wurde das Entwicklungssystem JEDI  installiert?

JEDI wurde parallel zu JUPITER installiert, um bereits zu diesem frühen Zeitpunkt eine kleine Version mit identischer Hardware , wie sie auch beim JUPITER-Booster verwendet wird, verfügbar zu haben. Dabei liegt der Fokus auf der Unterstützung des „JUPITER Research and Early Access Program“ (JUREAP). Dieses soll sicherstellen, dass die JUPITER-Hardware frühzeitig und effizient genutzt werden kann. Sowohl wissenschaftliche Simulationen als auch KI-Modelle sollen bereits in einem frühen Stadium duchgeführt und kontinuierlich bis hin zur Exsascale skaliert werden können. Darüber hinaus dient JEDI als Plattform für die Entwicklung des JUPITER Management Stack. Das ist die Software zur Verwaltung von JUPITER, die dafür sorgt dass das System am Ende verlässlich den Nutzern zur Verfügung steht.

Anders als JUPITER, der in einem neuartigen Modular HPC Datacenter (MDC) installiert wird, befindet sich JEDI im existierenden Rechenzentrum des JSC. Für den Green500 Lauf stand eine halbe BullSequana XH3000 Zelle mit 12 Einschüben und damit 24 Servern und 96 GH200 Chips zur Verfügung, verbunden über einen NVIDIA Quantum-2 InfiniBand Interconnect. Im Laufe des Mai kommen 12 weitere Einschübe, die die XH3000 vervollständigen und damit JUREAP starten.

Welche Maßnahmen sind noch für das finale Exascalesystem geplant, um den Betrieb möglichst nachhaltig zu gestalten?

Die wichtigste Maßnahme ist es natürlich zuerst einmal, die schon angesprochene Effizienz so weit wie möglich zu optimieren. Daneben haben wir schon bei der Ausschreibung und in unseren Verträgen darauf geachtet, dass JUPITER vollständig mit grünem Strom betrieben wird.

Schon während der Beschaffung von JUPITER wurde Wert darauf gelegt, dass die im System verwendete Hardware nicht ausschließlich auf maximale Performance getrimmt wird, sondern auch Vorteile bei der Optimierung des Stromverbrauchs bringt. Für die finale Hardware des JUPITER Booster-Moduls fiel die Wahl daher auf die Eviden BullSequana XH3000 Plattform. Diese verwendet eine direkte Warmwasser-Kühlung. Das Wasser kann den Großteil des Jahres über durch Freikühler an der Umgebungsluft gekühlt werden. Dies ist deutlich effizienter ist als eine konventionelle Kaltwasserversorgung oder auch eine klassische Luftkühlung.

Das modulare Rechenzentrum, in dem JUPITER installiert wird, ist zudem jetzt schon darauf ausgelegt, die Abwärme auszukoppeln und für die Wärmeversorgung zu nutzen. Mittelfristig ist ein Anschluss an das Niedertermperatur-Wärmenetz auf dem Jülicher Campus geplant. Die elektrische Leistung, die JUPITER im Betrieb aufnimmt, wird ja letztlich hauptsächlich in Wärme umgewandelt. Und die wird so noch einmal zweitverwertet.

Wie ist der aktuelle Stand beim Aufbau des Gesamtsystems? Wann geht JUPITER in Betrieb?

Die Installation von JUPITER läuft in mehreren Phasen ab. Das Ganze ist eher ein Marathon, bedingt durch die Größe des Systems und Komplexität des Gesamtprojektes. Der Start von JEDI ist dagegen eher so etwas wie ein Zwischensprint.

Im April dieses Jahres wurde die Bodenplatte für das modulare Container-Rechenzentrum, in dem JUPITER installiert wird, auf dem Jülicher Campus fertig aus Beton gegossen. In den kommenden Wochen beginnt nun die Fertigung der JUPITER-Hardware in der Fabrik von Eviden im französischen Angers. Dort werden auch verschiedene Teile des modularen Rechenzentrums hergestellt.

Voraussichtlich im Juni werden dann die ersten Container des modularen Rechenzentrums geliefert. Über den Sommer und Herbst zieht sich dann die Anlieferungs- und Aufbauphase, die dafür sorgt, dass bis Ende dieses Jahres weite Teile der JUPITER-Hardware auf dem Campus in Jülich stehen. Für Anfang kommenden Jahres ist dann das Abschließen der Installation und der beginnende Nutzerbetrieb geplant, wobei Wissenschaftlerinnen und Wissenschaftler über das JUREAP Early-Access-Programm bereits in der Aufbauphase zunächst auf JEDI und dann auch auf die jeweils fertig installierten Teile von JUPITER zugreifen können.

Letzte Änderung: 14.05.2024