Transparentes Sprachtalent

Seit Ende 2024 steht das deutsche KI-Sprachmodell Teuken-7B Interessenten aus Wissenschaft und Wirtschaft zur Verfügung. Stefan Kesselheim und Andreas Herten vom Jülich Supercomputing Centre haben Teuken-7B mitentwickelt und erläutern, was das mehrsprachige Open-Source-Modell von kommerziellen Angeboten wie ChatGPT unterscheidet.

Stefan Kesselheim und Andreas Herten vom Jülich Supercomputing Centre
Andreas Herten (l.) und Stefan Kesselheim vom Jülich Supercomputing Centre haben Teuken-7B mitentwickelt.
Bildcombo Forschungszentrum Jülich mit Bildern von Sascha Kreklau

Was zeichnet das Large Language Modell Teuken-7B aus?

Kesselheim: Es ist „Made in Germany“, frei zugänglich und jeder kann es herunterladen. Es wurde nicht nur auf Englisch, sondern auf allen 24 Amtssprachen der EU trainiert.

Herten: Teuken-7B ist das Ergebnis des Projekts OpenGPT-X, das vor drei Jahren startete, um den kommerziellen Sprachmodellen vor allem aus Nordamerika etwas Transparentes und Quelloffenes entgegenzusetzen. Es gab keinen Risikokapital-Geber und keine wirtschaftlichen Interessen. Das Projekt wurde durch das Bundesministerium für Wirtschaft und Klimaschutz gefördert. Das Modell trainierten wir auf Supercomputern in Jülich und in Dresden, also mithilfe öffentlicher Infrastruktur.

Warum ist es wichtig, dieses Feld nicht ausschließlich finanzkräftigen Unternehmen zu überlassen?

Kesselheim: Unternehmen halten oft den Quellcode der KI und die Trainingsdaten unter Verschluss. Ihr Vorgehen und ihre Absichten sind nicht immer transparent. Bei einer so umwälzenden Technologie, die die Art verändert, wie die Menschheit Informationen weitergibt und bearbeitet, ist die Abhängigkeit von wirtschaftlichen Interessen gefährlich.

Herten: Unternehmen wollen mit Sprachmodellen beispielsweise Chatbots und Software-Agenten betreiben, um Geld zu verdienen. Uns Wissenschaftler:innen geht es um den gesellschaftlichen Nutzen. Daher sind wir offener für andere Forschungsfragen und Ideen, die sich aus der Technologieentwicklung heraus ergeben.

Wie haben Sie zur Entwicklung von Teuken-7B beigetragen?

Herten: Wir teilten die Jülicher Aufgaben auf zwei Teams auf. Mein Team sorgte dafür, dass die Hardware beim Training des Sprachmodells effizient genutzt wurde. Wir wählten entsprechende Methoden und Parameter aus, analysierten und passten sie an. Die gewonnenen Erkenntnisse gaben uns wichtige Hinweise, worauf wir bei der Anschaffung des neuen Jülicher Exascale-Computers JUPITER zu achten hatten.

Kesselheim: Beim Training eines Large Language Modells gibt es viele Stellschrauben. Um das Training zu steuern, muss man diese im Voraus einstellen. Mein Team half, die besten Einstellungen zu finden. So können wir mit möglichst wenig Trainingsschritten zum Ziel kommen.

Ein wichtiger Aspekt bei der Entwicklung von KI-Modellen ist deren Ressourcenverbrauch. Wie steht es um die Energieeffizienz von Teuken-7B?

Kesselheim: Wir haben einen guten Ansatz gefunden, die Energieeffizienz von vielsprachigen Sprachmodellen zu verbessern. So zerlegt Teuken-7B die Wörter der verschiedenen Sprachen auf eine besonders schlaue Weise in kleinere Einheiten, die Tokens. Ein Token ist mehr als ein Buchstabe, eher eine Silbe. Für Deutsch würde man etwas andere Tokens wählen als zum Beispiel für Finnisch. Unser Tokenizer teilt den europäischen Sprachmix so auf, dass das Sprachmodell weniger rechnen muss, um zum Ergebnis zu kommen.

Es gibt inzwischen viele ähnliche europäische Projekte wie OpenGPT-X, einige mit Jülicher Beteiligung. Ist das sinnvoll?

Kesselheim: KI und Sprachmodelle sind disruptive Technologien, vielleicht vergleichbar mit dem Internet. Aufgrund dieser enormen Bedeutung wollen sehr viele an der Entwicklung teilhaben. Zahlreiche nationale und internationale Initiativen sind entstanden. Das ist gut, denn es ist viel Kompetenz nötig, um in Europa ein weltweit konkurrenzfähiges Ökosystem aus Forschungseinrichtungen, Start-ups und Unternehmen zu schaffen. Die Herausforderung liegt in der sinnvollen Koordination dieser Initiativen.

Das heißt aber auch, dass Teuken-7B keineswegs das Ende der Sprachmodell-Entwicklung ist….

Kesselheim: Genau. Seit unserem Training sind wieder viele neue Erkenntnisse zu Trainingsmethoden und den besten Daten entstanden. Außerdem ist das Modell klein: Die Angabe 7B steht für 7 Milliarden (engl. billions) Modellparameter. Das größte Modell von DeepSeek hat 650B und ist leistungsfähiger, verbraucht aber auch mehr Rechnerressourcen. Mit Teuken-7B haben wir jedoch gezeigt, dass Deutschland bei der Entwicklung von Sprachmodellen mitwirken kann. Wir haben im Projekt enorm viel gelernt. Das ist wichtig, denn Sprachmodelle sind Wegbereiter für die Entwicklung von Strategien und Methoden der KI in diversen Forschungsbereichen.

Können Sie ein Beispiel nennen?

Kesselheim: Die Jülicher Atmosphärenforscher:innen setzen etwa bei ihrer Arbeit KI-Methoden ein, die ihren Ursprung in Sprachmodellen haben. Die Forscher:innen haben diese Methoden auf die Verarbeitung von Wetter- und Klimadaten angepasst. Ähnliches gilt auch für KI-Modelle in der Energie- oder der Hirnforschung. Sprachmodelle bieten wertvolle Erkenntnisse für die Entwicklung solcher KI-Modelle – am meisten, wenn man sie selbst entwickelt. Es genügt nicht, die Sprachmodelle kommerzieller Anbieter anwenden zu können.

Die Fragen stellte Frank Frick.

effzett online
Alle Ausgaben
Printabonnement

Letzte Änderung: 07.05.2025