ENERGIE-EFFIZIENZ FÜR HPC MADE IN GERMANY

Der wachsende Bedarf an Rechenleistung, insbesondere für KI, befördert den Ausbau von Supercomputern, im Hinblick auf Anzahl und Größe. Der damit einhergehende Anstieg des Energieverbrauchs (z.B. ca. 17 MW für JUPITER am JSC) stellt HPC-Zentren, insbesondere in Deutschland, vor Herausforderungen.

Forschende am JSC haben gemeinsam mit Expert:innen anderer großer deutscher HPC-Zentren untersucht, welche Innovationen notwendig sind, um die Anforderungen an Nachhaltigkeit und Energieeffizienz zu erfüllen, die durch hohe Energiekosten, nationale Richtlinien und der Verpflichtung zur ökologischen Nachhaltigkeit entstehen. Sie identifizierten viele Maßnahmen, um HPC in eine energieeffiziente Zukunft zu führen (https://doi.org/10.3389/fhpcp.2025.1520207).

Tree growing on digital plant pot

Beteiligt am Beitrag sind: Deutsches Klimarechenzentrum (DKRZ), Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), Höchstleistungsrechenzentrum Stuttgart (HLRS), Jülich Supercomputing Centre (JSC), Karlsruher Institut für Technologie (KIT), Leibniz-Rechenzentrum (LRZ), Max Planck Computing and Data Facility (MPCDF) und Technische Universität Dresden (TUD).

Alle oben genannten deutschen HPC-Standorte zusammen betreiben insgesamt 20 Systeme, die in der TOP500-Liste (Stand November 2024) die Plätze zwischen 18 (JETI am JSC) und 491 (HoreKa-Blue am KIT) belegen, sowie 4 der 10 energieeffizientesten Systeme in der GREEN500-Liste (JEDI auf Platz 1, Strohmaier et al., 2024b).

Bedarf an energieeffizienten HPC-Lösungen

Der Bedarf an Rechenleistung übersteigt den Grad an Fortschritt hinsichtlich Energieeffizienz (Fig. 1), wodurch Nachhaltigkeit ein Kernanliegen wird. Angesichts der gesellschaftlichen Bedenken bezüglich Umweltauswirkungen und der Tatsache, dass Deutschland der zweitgrößte Standort für Rechenzentren weltweit ist, unterstreichen zudem hohe Energiekosten (ca. 0,20 €/kWh, die jährlich um 3 % steigen) den Effizienzbedarf.

Nationale und EU-weite, politische Regelungen, wie das deutsche Energieeffizienzgesetz (EnEfG) und die europäische Lieferkettenrichtlinie, treiben diese Bemühungen voran.

Figure 1: Supercomputing-Performanz und Energieeffizienz über Zeit; Quelle: Strohmaier et al. 2024)
Figure 1: Supercomputing-Performanz und Energieeffizienz über Zeit; Quelle: Strohmaier et al. 2024)

Bei der Planung und dem Betrieb von HPC-Standorten müssen Maßnahmen zur Steigerung der Energieeffizienz berücksichtigt werden, z. B. verbesserte Kühlung, Energiewiederverwendung, Monitoring-Infrastrukturen, hinsichtlich Performance-optimierte Programmierung und optimierte Hardware-Architekturen.

Maßnahmen für energieeffiziente HPC-Systeme

Verbesserte Kühlung:

Fortschritte bei Mikroprozessoren hin zu feineren Nanometerstrukturen verbessern die Rechenleistung und Energieeffizienz pro Watt, erhöhen aber auch die Leistungsdichte. Dadurch wird eine herkömmliche Kühlung unzureichend und die Nachfrage nach Direct Liquid Cooling (DLC), also direkter Flüssigkeitskühlung, steigt. HPC-Zentren eignen sich gut für DLC mit warmem Wasser (30-40°C), wodurch zusätzliche Kühler überflüssig werden und eine ganzjährige Freikühlung zur Kostensenkung möglich ist. Vollständig integriertes DLC kann über 95 % der Wärme abführen. Nur große Speichersysteme und spezialisierte Knoten (“Nodes”) sind möglicherweise noch auf Luftkühlung angewiesen. Während die Zentren auf DLC umstellen, kann die steigende Rechendichte (in Zukunft über 200 kW pro Rack) niedrigere Kühltemperaturen erfordern, was wiederum die Effizienz verringern und die Umweltbelastung erhöhen könnte.

Wiederverwendung von Energie:

Traditionell wurden Rechenzentren für bestimmte HPC-Generationen passgenau gebaut; moderne Ansätze bevorzugen jedoch langfristig ausgelegte Gebäude, die die Wärmenutzung optimieren. Der bisherige Ansatz von HPC-Zentren, bei dem die Kühlung im Vordergrund steht, wandelt sich so zu einem Ansatz, bei dem die Wärmeverwendung im Vordergrund steht, da diese eine äußerst effektive Nachhaltigkeitsstrategie ist.
DLC unterstützt zwar die effiziente Wärmenutzung, aber die Wärmeabgabe von HPC-Systemen übersteigt oft den Bedarf in umliegenden Gebäuden. Zusätzlich muss für eine optimale Wärmeübertragung an städtische Netze oder große Campusanlagen das Wasser bei 70-90°C geführt werden. Um diese Temperatur zu erreichen, sind große Wärmepumpen erforderlich.
Hinsichtlich der Infrastruktur ermöglicht ein Modulares Rechenzentrum (“Modular Data Center”, MDC), wie in Jülich, die exakte Abstimmung von Systemanforderungen und der Ausstattung des Rechenzentrums, ohne die Installation weiterer, überkapazitärer Infrastruktur.

Monitoring-Infrastrukturen:

Die Überwachung des Energieverbrauchs von HPC-Systemen ist eine Herausforderung, da sie die Aufnahme, Verarbeitung, Speicherung und Abfrage von Daten umfasst. Bei einer effektiven Überwachung des Energieverbrauchs in HPC-Zentren werden bis zu 8 Millionen Metriken mit 10 Updates pro Sekunde erfasst. Diese Daten werden aus verschiedenen Quellen gesammelt, darunter Rechenknoten, Netzwerkinfrastruktur, Speicher und Gebäude. Während der Überwachungsprozess an sich nur minimale Auswirkungen auf den Energieverbrauch hat, überwiegen die Vorteile durch umfassende Einblicke in die Rechenjobs.

Erhobene Daten werden auf Dashboards angezeigt und von Administratoren und Support-Mitarbeiter:innen zur manuellen Überwachung des Systems verwendet. Das systemweite Monitoring bietet eine umfassende Perspektive auf das komplette System bis hin zu Einblicken in einzelne Racks oder sogar Knoten. Demgegenüber hilft die Job-spezifische Analyse, Ineffizienzen zu erkennen und die Ressourcenauslastung zu optimieren. Dadurch lassen sich weitere Maßnahmen zur Verbesserung der Energieeffizienz ermitteln.

Leistungsorientierte Programmierung:

Die Optimierung von Software verbessert die Hardware-Auslastung und damit sowohl die Performance an sich als auch die Energieeffizienz. High-Level-Ansätze helfen neuen HPC-Nutzer:innen portable und leistungsorientierte Programmierung in ihre Arbeit zu implementieren, während fortgeschrittene Performance Engineers Optimierungsprozesse im Backend von Programmiermodellen unterstützen, um sie an spezifische Hardwarevoraussetzungen anzupassen.

Optimierte Hardware-Architekturen:

Die Recheneinheiten sind die energiehungrigsten Komponenten der HPC-Hardware. Heterogene Architekturen mit CPUs und Hardware-Beschleunigern, wie die Modular Supercomputing Architecture am JSC, erhöhen die Energieeffizienz. Während Beschleuniger (wie GPUs) die Leistung pro Watt für hochparallele Aufgaben erhöhen, führen CPUs Codeteile mit begrenzter Parallelität und Serviceaufgaben aus. Gut koordinierte Allokation und Scheduling verbessern die effiziente Energienutzung.
Die Speicherung macht zwar nur etwa 8 % des gesamten Energieverbrauchs von HPC-Systemen aus, birgt aber ebenfalls Potenzial für mehr Nachhaltigkeit. Der Energieverbrauch für die Speicherung wird in Leerlaufverbrauch, Datenzugriff und systemweite Auswirkungen unterteilt. Während der Stromverbrauch im Leerlauf nur schwer zu reduzieren ist, senken SSDs und Fortschritte in der Halbleitertechnik den Energieverbrauch für Datenzugriffe.
Das Powermanagement optimiert den Energieverbrauch durch dynamische Anpassung der Auftragsfrequenzen je nach Workload-Typ. Speichergebundene Aufgaben profitieren von niedrigeren Frequenzen, während rechengebundene Aufgaben höhere Frequenzen erfordern. Eine Leistungsbegrenzung stellt sicher, dass der Betrieb innerhalb der festgelegten Energieverbrauchsgrenzen bleibt.

🔎Alle Ergebnisse und Details im Review-Artikel: https://doi.org/10.3389/fhpcp.2025.1520207

JSC-Beteiligung am SEANERGYS-Projekt

Das Jülich Supercomputing Centre ist maßgeblich an zukünftigen großen, internationalen Drittmittelprojekten beteiligt, die innovative Lösungen für energieeffiziente HPC-Systeme erforschen. Dazu gehört insbesondere das Projekt SEANERGYS (Software for Efficient and Energy-Aware Supercomputers), das vom JSC koordiniert wird. Ziel des Projekts ist die Optimierung von Energieeffizienz und Ressourcennutzung auf Ebene der HPC/KI-Systeme (ab Q2 2025). Updates werden auf unserer News-Seite folgen.

Mehr Informationen auf der SEANERGYS Projektseite.

Kontakte am JSC:

Estela Suarez
Andreas Herten

Letzte Änderung: 14.03.2025