Herausforderung Exascale
Auf der TOP500-Liste der schnellsten Supercomputer der Welt steht seit Mai 2022 erstmals ein System der Exascale-Klasse. Auch am Forschungszentrum Jülich arbeitet man intensiv an neuen Technologien, die einen solchen Sprung ermöglichen. Im Interview erläutern Prof. Thomas Lippert und Prof. Estela Suarez vom Jülich Supercomputing Centre, welche Herausforderungen ein solches System mit sich bringt.
Jülich, 30. Mai 2022 – Es ist so weit. Nachdem es in den letzten beiden Jahren immer wieder zu Verzögerungen kam, überschreitet nun erstmals ein Superrechner offiziell die Exascale-Marke. Dies geht aus der aktuellen TOP500-Liste der schnellsten Rechner der Welt hervor, die heute auf der Supercomputing-Konferenz ISC in Hamburg veröffentlicht wurde. Der Superrechner Frontier des Oak Ridge National Laboratory in den USA ist demnach der erste Superrechner, der mehr als 10 hoch 18 Rechenoperationen mit Gleitkommazahlen ausführen kann. Der Bau eines solchen Superrechners der Exascale-Klasse gilt seit vielen Jahren als nächster großer Schritt im Höchstleistungsrechnen.
Prof. Dr. Dr. Thomas Lippert, Leiter des Jülich Supercomputing Centre (JSC), und Prof. Dr. Estela Suarez vom JSC, die die europäischen DEEP-Projekte zu einem Exascale-fähigen Supercomputer-Ökosystem koordiniert, sprechen über den aktuellen Stand der Entwicklungen.
Der Bau eines Exascale-Rechners gilt als gigantische Herausforderung. Welche Schwierigkeiten gibt es da?
Thomas Lippert: Es gibt hunderte Schritte, die man auf verschiedenen Ebenen machen muss, um diesen einen großen Schritt in Richtung Exascale zu gehen. Viele Schwierigkeiten hängen damit zusammen, dass bestimmte Skalierungsgesetze wie Moore’s Law seit etwa 2005 nicht mehr so gelten wie die 20 Jahre zuvor. Die Performance der Prozessoren hat sich früher beispielsweise alle 10 Jahre um das Hundertfache verbessert. Bei Supercomputern hat man zudem noch andere Freiheitsgrade ausgenutzt und am Ende eine tausendfache Steigerung hinbekommen. Diese grundlegende Steigerung bei den Prozessoren tritt heute aus verschiedenen Gründen nicht mehr ein. Damit wird es sehr viel schwieriger, einen substanziellen Schritt im Supercomputing zu machen.
Ein Problem ist der Energieverbrauch und die Wärmeentwicklung: In einem Rack, also einem Schrank, steckt heute eine elektrische Leistung von 150 Kilowatt. Schon die Leistung eines einzelnen Racks ist also 10- bis 15-mal so hoch wie die einer normalen Heizungsanlage in einem Einfamilienhaus. Die Wärme muss man irgendwie abführen, sonst verdampft das System innerhalb von Minuten. Vor 10 Jahren waren die Superrechner noch luftgekühlt. Aber heutzutage nutzt man andere, effizientere Lösungen, nämlich Warmwasser. Die Technik verbraucht weniger Energie und ermöglicht es, die erzeugte Wärme für die Gebäudeheizung zu nutzen.
Im Hinblick auf Exascale stellen sich aber noch viele andere grundsätzliche Fragen: Wie beherrscht man so viele Prozessoren und Komponenten gleichzeitig? Und wie kriegt man das Ganze administriert? Auf 10.000 Maschinen können wir ein Softwareupdate nicht mehr händisch aufspielen. Es braucht eine orchestrierte Software, um ein System komplett zu administrieren.
Für welche Anwendungen wird ein Exascale-Rechner benötigt?
Thomas Lippert: Die wissenschaftlichen Fragestellungen sind äußerst vielfältig. Die Masse der Simulationsanwendungen ist heute immer ein Kompromiss zwischen der verfügbaren Rechenleistung und der Größe des Systems, das man simuliert. Klimasimulationen erreichen beispielsweise auf einem Petascale-Rechner eine Auflösung von 10 Kilometern. Was man aber will, ist eine Auflösung von einem Kilometer. Und dann sind da noch Hotspots, die man sehr fein auflösen muss, um bestimmte Phänomene mitzunehmen, die sehr kleinräumig oder kombiniert auftreten. Das geht nur, wenn die Rechenleistung der Maschine entsprechend höher ist.
„Unsere Philosophie ist es, immer besser zu werden, immer größere und komplexere Probleme zu simulieren, sodass am Ende ein immer realistischeres Bild der Welt entsteht.“
Der Exascale-Rechner ist hier der nächste Schritt, aber noch lange nicht das Ende. Man wird in voraussehbarer Zeit immer die maximale Systemleistung nutzen. Je höher diese ist, desto verlässlicher ist die Aussage. Das gilt speziell für Wetter- und Klimasimulationen und die Ökosystem-Forschung, aber auch für jedes andere komplexe System, beispielsweise für Molekulardynamik-Simulationen und die Wirkstoffforschung.
Estela Suarez: Neben der Genauigkeit ist es auch immer die Frage, welche Aspekte man berücksichtigen kann. In der Klimaforschung ist neben der Atmosphäre auch der Zustand der Ozeane und der Erdoberfläche von Bedeutung. Die alle rechnerisch miteinander zu verbinden ist ungeheuer komplex. Ähnliches gilt in anderen Bereichen. Beispielsweise in den Neurowissenschaften möchte man das ganze Gehirn des Menschen simulieren. Um bestimmte Krankheiten verstehen zu können, möchte man aber gleichzeitig einzelne Nervenzellen betrachten, mitsamt den verschiedenen Funktionen, die sie erfüllen. Dafür benötigt man eine Rechenleistung, die höher ist als die, die wir heute haben.
Es wird immer schwieriger, substanzielle Fortschritte im Supercomputing zu erzielen, wie Sie anfangs erwähnt haben. Welche Ansätze gibt es, um die Rechenleistung weiterhin zu steigern?
Estela Suarez: Man hat ja früher zunächst versucht, die Taktfrequenz der Prozessoren stetig zu erhöhen. Das hat irgendwann nicht mehr funktioniert, weil der Energieverbrauch zu hoch wurde. Daraufhin fing man an, mehr Rechenkerne pro Einheit zu verbauen. Diese stark zunehmende Parallelität kann man auch bei normalen Computern und mobilen Geräten beobachten. Danach versuchte man, neben CPUs auch andere Recheneinheiten zu nutzen, zum Beispiel Grafikkarten. Diese wurden ursprünglich für andere Zwecke entwickelt, etwa für die Spieleindustrie. Mittlerweile werden sie auch in Superrechnern eingesetzt, weil sie viel Rechenleistung anbieten und vergleichsweise wenig Energie verbrauchen.
Dieser Herangehensweise wird auch in Zukunft eine wichtige Rolle spielen. Das heißt, man schaut sich nach Technologien um, die ursprünglich nicht unbedingt für Superrechner gedacht waren, aber dort eingesetzt werden können. Als nächstes werden möglicherweise Quantencomputer und neuromorphe Chips, die eher dem menschlichen Gehirn nachempfunden sind, integriert, wenn sie auf dem notwendigen Entwicklungsstand sind. In Jülich verfolgen wir dafür den Ansatz einer modularen Supercomputer-Architektur. Diese macht es möglich, unterschiedliche Cluster mit jeweils unterschiedlichen Hardwareeigenschaften zu definieren und miteinander zu verbinden. Anwender können dann gleichzeitig auf all diese Clustermodule zugreifen, je nachdem, was ihr Code braucht.
Beim Thema Exascale geht es aber nicht nur um Hardware, mindestens genauso wichtig ist die Software. Die Systeme werden immer komplexer. Die Software muss mit der wachsenden Heterogenität umgehen können und die Systeme den End-Anwendern zugänglich machen. Es geht darum, die entsprechenden Softwarepakete weiterzuentwickeln, neue Schnittstellen bereitzustellen und Anwendungscodes auf zukünftige Exascale-Maschinen vorzubereiten. Daran arbeiten wir unter anderem im aktuell laufenden Projekt „DEEP-SEA“.
Wie weit ist das Vorhaben, einen Exascale-Rechner nach Jülich zu bringen?
Thomas Lippert: Aktueller Stand ist, dass wir uns über das Gauss Centre for Supercomputing, das die drei Bundeshöchstleistungsrechenzentren HLRS (Höchstleistungsrechenzentrum der Universität Stuttgart), JSC (Jülich Supercomputing Centre) und LRZ (Leibniz Rechenzentrum, Garching bei München) vereint, auf den entsprechenden Call der Europäischen Union im Rahmen von EuroHPC beworben haben. Bei diesem Call geht es um einen europäischen Exascale-Rechner, der auf europäischer Technologie basiert und 2024 in Betrieb gehen soll.
Ein solches System ist natürlich eine große Herausforderung. Aber man muss bedenken: Das sind Maschinen, von denen die gesamte Gesellschaft profitiert. Man muss sich klarmachen, dass wir in 20 bis 30 Jahren sehr viele solcher Maschinen haben werden, die für uns in dieser Welt ganz wesentliche Leistungen übernehmen werden: von der Optimierung ganzer Städte bezüglich des Verkehrs und der Sicherheit, bis hin zum Monitoring unserer Umwelt. Wir sind auf dem Weg zum autonomen Fahren, zum digitalen Zwilling. All diese Dinge müssen irgendwo gerechnet werden. Die Technologien, die wir heute entwickeln, werden dafür eine entscheidende Rolle spielen.