Erfolgreiches Training auf JUWELS Booster: OpenGPT-X veröffentlicht multilinguales KI-Sprachmodell
JSC Wissenschaftler in Forschungsprojekt eng eingebunden
Das große KI-Sprachmodell des Forschungsprojekts OpenGPT-X, genannt »Teuken-7B« ist veröffentlicht und steht ab sofort auf Hugging Face zum Download bereit. Es umfasst sieben Milliarden Parameter und wurde mit den 24 Amtssprachen der EU trainiert – unter anderem von Wissenschaftlern des JSC auf dem Supercomputer JUWELS.
Teuken-7B ist aktuell eines der wenigen KI-Sprachmodelle, die von Grund auf multilingual entwickelt wurden. So enthält es etwa 50 Prozent nicht-englische Pretraining-Daten und zeigt über verschiedene Sprachen hinweg eine stabile und zuverlässige Leistung. Forschung und Industrie können das Sprachmodell für eigenen Anwendungen der Künstlichen Intelligenz (KI) nutzen. Denn die Bereitstellung als Open-Source-Modell erlaubt es, eigene angepasste Modelle in realen Anwendungen zu betreiben. Insbesondere internationalen Unternehmen mit mehrsprachigen Kommunikationsbedarfen erfahren hier einen großen Mehrwert. Neben dem JUWELS-System am JSC wurde Teuken-7B mit den HPC-Systemen der ZIH an der Technischen Universität Dresden entwickelt.
„Dieses Release ist ein großer Erfolg“, sagt Dr. Stefan Kesselheim, der das Projekt am JSC gemeinsam mit Dr. Andreas Herten leitet. „Es ist das erste Modell dieser Art, welches wir auf unserem Rechner trainiert haben.“ Noch ist das führende Supercomputer-System in Jülich „JUWELS“, doch die Wissenschafter:innen freuen sich schon auf JUPITER: „Mit unserem ersten europäischen Exascale-Rechner werden wir Projekte dieser Art weiter ausbauen und die Möglichkeit haben, uns stärker auf KI-Forschungsthemen – die eine besonders hohe Rechenleistung benötigen – zu konzentrieren.“ Beteiligt am Projekt OpenGPT-X sind JSC-seitig außerdem Chelsea Maria John, Dr. Carolin Penke und Jan Ebert. „Wir freuen uns sehr, dass durch unser Training auf dem JUWELS Booster so ein vielversprechendes Modell herausgekommen ist“, sagt Chelsea, die noch vor wenigen Tagen ihr dazugehöriges Paper auf der Supercomputing Conference (SC24) in Atlanta vorgestellt hat. „Besonders freut mich, dass das Modell Open Source ist und nun für individuelle Bedürfnisse weiter trainiert werden kann. Das lässt eine sehr große Bandbreite an Möglichkeiten zu – aus wissenschaftlicher Sicht sehr spannend.“
Neben dem JSC am Forschungszentrum Jülich haben die beiden Fraunhofer-Instituten, der KI Bundesverband, die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), IONOS, Aleph Alpha, ControlExpert sowie der Westdeutsche Rundfunk (WDR) als Partner an OpenGPT-X mitgearbeitet.
Nachhaltiger mit dem neu entwickelten „Tokenizer“
Neben dem Modelltraining widmete sich das OpenGPT-X-Team auch zahlreichen Forschungsfragen, zum Beispiel wie multilinguale KI-Sprachmodelle energie- und kosteneffizienter trainiert und betrieben werden können. Dazu entwickelten Projektmitarbeitende einen multilingualen »Tokenizer«, dessen Aufgabe es ist, Wörter in einzelne Wortbestandteile zu zerlegen – je weniger Token, desto (energie-)effizienter und schneller generiert ein Sprachmodell die Antwort. Der entwickelte Tokenizer reduzierte die Trainingskosten im Vergleich zu anderen multilingualen Tokenizern wie Llama3 oder Mistral. Besonders zum Tragen kommt das bei europäischen Sprachen mit langen Wörtern wie Deutsch, Finnisch oder Ungarisch. Im Betrieb von mehrsprachigen KI-Anwendungen können damit ebenfalls Effizienzsteigerungen erreicht werden.
Endspurt für OpenGPT-X
In die Modellentwicklung des Teuken-7B sind wichtige Forschungsergebnisse aus dem OpenGPT-X-Projekt eingeflossen, wie beispielsweise Tools und Technologien, um sehr große Datenmengen aufzubereiten, leistungsfähige europäische HPC-Infrastrukturen zu nutzen und ein effizientes Modelltraining durchzuführen. Auch künftig bietet die in OpenGPT-X entstandene Technologie allen Partnern die Basis für das Training weiterer eigener Modelle. Das Forschungsprojekt selbst, Anfang 2022 gestartet, steht kurz vor dem Abschluss – es läuft noch bis zum 31. März 2025, so dass weitere Optimierungen und Evaluierungen der Modelle erfolgen können.
Zugang zu Teuken-7B – zwei Versionen verfügbar
Entwicklerinnen und Entwickler aus der Wissenschaftscommunity oder Unternehmen können Teuken-7B bei Hugging Face kostenfrei herunterladen und in der eigenen Entwicklungsumgebung damit arbeiten. Durch ein »Instruction Tuning« ist das Modell bereits für den Chat optimiert. Teuken-7B steht in zwei Varianten zur Verfügung: einer Version, die für Forschungszwecke genutzt werden kann, und eine Version unter der Lizenz »Apache 2.0«, die Unternehmen neben Forschung auch für kommerzielle Zwecke nutzen und in eigene KI-Anwendungen integrieren können.
Download-Möglichkeit und Model Cards finden sich unter folgendem Link: https://huggingface.co/openGPT-X
Zur Presseinformation des Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS: https://www.iais.fraunhofer.de/de/presse/presseinformationen/presseinformationen-2024/presseinformation-241126.html
Ansprechpartner: Stefan Kesselheim (JSC), Andreas Herten (JSC)