Verlorenes Kontingent für JUQUEEN-Nutzer erstattet

Im Dezember 2016 verursachten technische Probleme einen längeren Ausfall der Supercomputer. Verursacht wurden sie vom General Parallel File System (GPFS) und betroffen waren sämtliche Systeme, die GPFS nutzen. Ein Bug-Fix, der Mitte Dezember eingespielt wurde, half nur kurzfristig, so dass in den Weihnachtsferien das File-System wiederum ausfiel.

Die Fehleranalyse ergab, dass der Rechner JUQUEEN den Absturz verursacht. Daher wurde JUQUEEN außer Betrieb genommen, wogegen die anderen Rechner nach Reparatur des File-Systems nach kurzer Zeit wieder in Produktion gingen. Das GPFS-Problem wurde am 4. Januar durch eine neue GPFS-Software-Version auf dem GPFS-File-Server und anderen angeschlossenen Systemen behoben.

Um die Auswirkungen der langen Ausfallzeit der JUQUEEN zu mildern, hat das JSC beschlossen, allen JUQUEEN-Nutzer einen Teil der verlorenen Rechenzeit zu erstatten. Jedes JUQUEEN-Projekt erhält ein Zwölftel seines Jahreskontingents gutgeschrieben, das in den Monaten Februar, März und April genutzt werden kann.

Wir entschuldigen uns für die Unannehmlichkeiten. Alle HPC-Systeme sind wieder in Betrieb und wir sind überzeugt, dass die GPFS-Probleme dauerhaft behoben sind.
(Ansprechpartner: Ulrich Detert, u.detert@fz-juelich.de)

aus JSC News No. 247, March 2017

Letzte Änderung: 05.07.2022