Testplattformen auf JURECA
JURECA-DC wurde kürzlich um drei zusätzliche Module erweitert, die zur Vorbereitung auf bevorstehende Beschaffungen evaluiert und getestet werden.
Eines der Module besteht aus zwei Knoten mit je vier AMD Instinct MI250 GPUs. Dabei handelt es sich um dieselbe GPU-Generation, die mit dem Supercomputer "Frontier" die Exascale-Grenze durchbrochen hat und bis zu 90 Teraflops Leistung in FP64 (double-precision floating-point) bei einer TDP (thermal design power) von nur 560 Watt bietet. Die Knoten sind mit zwei AMD EPYC 7443 Milan CPUs und 512 GB Hauptspeicher ausgestattet. Jede GPU verfügt über 128 GB Gerätespeicher und ist als Multi-Chip-Modul (MCM) mit zwei GPU-Chips in jedem MI250-Gehäuse aufgebaut. Der ROCm-Software-Stack ist auf diesen Knoten verfügbar. Diese Hardware- und Softwarekombination bietet die Möglichkeit, die aktuelle AMD-GPU-Plattform zu evaluieren, deren Nachfolger für zukünftige, größere Systeme am JSC von Interesse sein könnte.
Zwei NVIDIA Arm HPC Developer Kit-Knoten bilden ein weiteres Modul. Jeder Knoten verfügt über eine Ampere Altra Q80-30 CPU, eine 80-Core ARM CPU mit einer niedrigen TDP von 210 W. 512 GB Hauptspeicher stehen zur Verfügung. Zwei NVIDIA A100 PCIe 40 GB GPUs sind in jedem Knoten installiert. Diese PCIe-Version der A100 hat eine niedrigere TDP von 250 W im Vergleich zu den 400 W der Versionen in JURECA-DC und JUWELS-Booster. Ein vollständiger ARM-Software-Stack wird derzeit entwickelt, und erste Softwaremodule sind über EasyBuild verfügbar. Wir laden alle, die sich für die ARM-CPU-Architektur interessieren, dazu ein, diese Knoten zu testen, angesichts der möglichen zukünftigen HPC-CPUs NVIDIA Grace und SiPearl Rhea.
Eine weitere prominente Erweiterung ist ein Graphcore IPU-POD4, bestehend aus einem Access-Server und vier GC200 IPUs mit 5888 IPU-Kernen. Das System ist eine speziell für KI-Workloads entwickelte Hardware. Es kann eine KI-Leistung von 0,999 Petaflops (FP16.16, half-precision) oder 0,2497 Petaflops FP32 (single-precision) bieten. Anwendungen können die IPUs über das Graphcore Poplar SDK oder eines der verschiedenen ML-Frameworks nutzen, die mit Graphcore-Plugins erweitert wurden, wie z. B. TensorFlow oder PyTorch.
Alle Systeme wurden in die offizielle JURECA-Dokumentation aufgenommen und enthalten zusätzliche Informationen über den Zugang und die Nutzung der Systeme. Wenn Sie Interesse haben, die Plattformen zu testen, senden Sie bitte eine formlose Bewerbung.
Kontakt: Dr. Andreas Herten, Benedikt von St. Vieth
aus JSC News No. 291, October 2022