JUWELS Booster ist der schnellste KI-Supercomputer in Europa

Einem Forschungsteam von KI-Beratern des JSC und des Karlsruher Instituts für Technologie (KIT) ist es gelungen, die Geschwindigkeit von KI-Anwendungen zu messen, die sowohl auf dem JUWELS-Booster als auch auf dem HoreKa (Hochleistungsrechner Karlsruhe) laufen. Sie konnten die bisher schnellsten und rechenintensivsten KI-Berechnungen in Europa durchführen. Als Beitrag zum HPC-Wettbewerb MLPerf Training trainierten sie zwei Modelle für maschinelles Lernen (ML) und nutzten dabei die hohe Leistung der NVIDIA A100 Grafikprozessoren und die Infiniband-Netzwerkverbindung, die in beiden Rechnern installiert ist. Auf JUWELS nutzten sie bis zu 3072 GPUs und erreichten eine durchschnittliche Rechenleistung von etwa 100 PFlop/s mit automatischer gemischter Präzision.

Basis für die Benchmark-Wettbewerbe sind rechenintensive Deep-Learning-Modelle. Das Cosmoflow-Modell sagt kosmologische Parameter anhand der Ergebnisse kosmologischer Simulationen voraus. DeepCam identifiziert Regionen mit tropischen Stürmen in meteorologischen Daten. Das Training beider Modelle ist recht datenintensiv. Die Datensätze (8 Terabyte und 5 Terabyte) wurden im Dateisystem des JSC in zwei großen HDF5-Dateien gespeichert, die vom Trainingsalgorithmus nacheinander eingelesen wurden. Der große Hauptspeicher des JUWELS-Boosters sorgt dafür, dass dies nur einmal gemacht werden muss. Das Training wurde mit dem ML-Framework PyTorch durchgeführt, das eine automatische gemischte Präzision verwendet.

Der Wettbewerbsbeitrag ist das Ergebnis einer Zusammenarbeit von Forschenden des Steinbuch Centre for Computing am KIT innerhalb von Helmholtz AI, der Kooperationseinheit der Helmholtz-Zentren in Deutschland. Deren KI-Beratung kann helfen, neue Anwendungen der Künstlichen Intelligenz in der Wissenschaft zu finden oder bestehende Anwendungen zu verbessern.

Kontakt: Dr. Stefan Kesselheim, s.kesselheim@fz-juelich.de

Letzte Änderung: 05.07.2022