„DeepSeek hat extrem vorgelegt“ – Chinas neues KI-Modell und seine Bedeutung für die Tech-Welt

7. Februar 2025

Interview mit Stefan Kesselheim und Jan Ebert vom Jülich Supercomputing Centre

Ende Januar veröffentlichte das chinesische Start-up DeepSeek ein Modell für künstliche Intelligenz namens R1 – und sorgte damit für Aufsehen in der KI-Welt. Das Modell ist offenbar ähnlich leistungsfähig wie die KI-Modelle der größten amerikanischen Technologiekonzerne. Dabei war DeepSeek bis vor Kurzem noch weithin unbekannt. Die Kosten für das Modell sollen nur knapp 6 Millionen Dollar betragen haben.

Mit seinem KI-Modell R1 sorgte das chinesische Start-up DeepSeek für Aufsehen in der Tech-Welt.
Adobe Stock

Prof. Stefan Kesselheim leitet das „Simulation and Data Lab Applied Machine Learning“ des Jülich Supercomputing Centre. Er ist außerdem Kopf des Helmholtz-KI-Beraterteams, das Wissenschaft und Industrie bei der Entwicklung maßgeschneiderter Ansätze für maschinelles Lernen unterstützt. Zusammen mit seinem Kollegen und KI-Experten Jan Ebert erklärt er, was das DeepSeek KI-Modells auszeichnet und wie es sich von bisher bekannten Modellen unterscheidet.

Was macht R1 so effizient?

Stefan Kesselheim: Tatsächlich ist DeepSeek R1 nicht per se ein effizientes Modell. Das Basismodell DeepSeek V3 wurde bereits im Dezember 2024 veröffentlicht. Es verfügt über 671 Milliarden Parameter, und ist damit verglichen mit anderen Modellen ziemlich groß. Durch gutes Engineering wurde hier ein großes Modell auf effiziente Weise trainiert, aber es gibt nicht eine einzelne herausragende Neuerung.

Prof. Dr. Stefan Kesselheim

Das im Januar veröffentlichte Modell R1 ist eine Weiterentwicklung von V3. Das Modell nutzt eine Technik, die als "Reasoning" bezeichnet wird – vergleichbar mit OpenAI's O1-Modell. Dabei macht das Modell zahlreiche Zwischenschritte, bei denen Zeichen ausgegeben werden, die nicht für den User bestimmt sind. Dies erinnert an menschliches Nachdenken, und wird daher auch als Chain-of-Thought bezeichnet. Diese Technik macht die Nutzung erheblich aufwändiger - also im Grunde erheblich ineffizienter – verbessert aber je nach Aufgabenstellung die Ergebnisse erheblich. Bisher war nur von OpenAI und Google bekannt, hierfür eine vergleichbare Lösung gefunden zu haben.

Jan Ebert: Für das Training von DeepSeek-R1 wurde also das DeepSeek-V3- Modell als Ausgangspunkt genommen. Der konventionelle Teil des Trainings steckt in DeepSeek-V3. DeepSeek-R1 ist praktisch DeepSeek-V3, dem im Nachhinein die von Stefan mit "Reasoning" beschriebenen Techniken angelernt wurden, um so einen "Denkprozess" zu bekommen. Für Aussagen zur Effizienz kann man also nicht isoliert von R1 sprechen, sondern muss sich auf die grundlegende Architektur von V3 beziehen.

V3 besitzt zwar eine sehr große Zahl an Parametern, aber eine vergleichsweise kleine Anzahl an Parametern wird "aktiv" genutzt, um einzelne Wörter (“Tokens”) vorherzusagen. So werden automatisch Teile des Modells ausgewählt, um jeweils die beste Vorhersage zu generieren. Diese Technik wird als „Mixture-of-Experts“ bezeichnet. In der Community wird vermutet, dass GPT-4 die gleiche Technik nutzt, und auch für andere Anbieter ist das bekannt. DeepSeek hat hier extrem viel Arbeit reingesteckt, um es so effizient wie möglich zu machen. Eine andere Technik zur Effizienzverbesserung, die V3 zugrunde liegt, ist ein effizienterer Vergleich zwischen einzelnen Worten ("Tokens"). All diese Techniken sind allerdings nicht neu, sie wurden auch schon in vorherigen Modellen der DeepSeek-Reihe genutzt.

Um den von Stefan hervorgehobenen Engineering-Punkt noch weiter auszuleuchten: Das DeepSeek-V3-Modell – und vermutlich auch R1 – wurde in einer niedrigeren numerischen Genauigkeit trainiert als üblich. Auf dem Weg zur Lösung mussten also katastrophale Rundungsfehler vermieden werden. Das hatte sich bis dahin meines Wissens keiner getraut, beziehungsweise konnte keiner ans Laufen bringen, ohne dass das Modell irgendwann im Lernprozess implodiert.

Generell ist es aber schwierig, Vergleiche mit den hinter Türen gehaltenen Modellen wie denen von OpenAI oder Google zu ziehen, da zu wenig bekannt ist.

Wie konnte DeepSeek seine KI so schnell und kostengünstig entwickeln?

Jan Ebert

Stefan Kesselheim: Die grundlegende Technik hat DeepSeek für das Antrainieren des " Reasonings" im Februar 2024 in groben Zügen mit “DeepSeekMath” veröffentlicht. Die Technik wird als „Group Relative Policy Optimization“ bezeichnet und ermöglicht es, KI-Modelle zu verfeinern – auch ohne dafür von Menschen vorgegebene Daten zu nutzen. Wir sind sehr beeindruckt, dass dieser konzeptionell recht einfache Ansatz derartig erfolgreich war. Der Erfolg dieser Technik hat es ermöglicht, dieses Modell in weniger als einem Jahr zu entwickeln. Das Basismodell DeepSeekV3 war eine natürliche Weiterentwicklung des Vorgängermodells. Hier wurde hervorragende Engineering-Arbeit geleistet.

Jan Ebert: Es ist noch wichtig, zu erwähnen, dass DeepSeek viel Zeit und Geld in Forschung zu sogenannten "Scaling Laws" gesteckt hat. Dadurch konnte das Team relativ genau vorherbestimmen, wie sie Modell und Datensatz vergrößern müssen, um das maximale Potential rauszuholen. Die Forschung zu AI-Modellen für Mathematik, die Stefan zitiert hat, wird viele wichtige Bausteine für den Code gelegt haben, den auch R1 zur automatischen Auswertung seiner Antworten genutzt haben wird.

Gibt es grundsätzlich Unterschiede zwischen der R1 und den europäischen und amerikanischen Modellen?

Stefan Kesselheim: Nach dem, was über DeepSeekR1 bekannt ist, wurde hier ein direkter Weg zu einem starken Modell gefunden, der sogar in entscheidenden Teilen offen zur Verfügung gestellt wurde. Zum jetzigen Zeitpunkt ist das DeepSeek R1-Modell mit dem O1-Modell von OpenAI vergleichbar. Auch andere Anbieter werden jetzt alles daranlegen, ihre Modelle ähnlich zu verfeinern. Dies erwarten wir beispielsweise auch für die Modelle des französischen Unternehmens Mistral AI. Bei DeepSeek R1 wurde jedoch explizit darauf geachtet, dass das Modell bestimmte Aspekte etwa zu chinesischer Politik und Geschichte in einer bestimmten Art und Weise darstellt. Derartig gezielte Eingriffe sind bei amerikanischen und europäischen Modellen zurzeit nicht bekannt.

Jan Ebert: Auch OpenAI steht allerdings mittlerweile in der Kritik, dass seinen Modellen antrainiert wurde, menschenrechtliche Fragen zu Palästina gesondert zu betrachten. Hier muss man selbstverständlich vorsichtig sein: Es kann sich auch um automatisch angelernte Antworten handeln, gezogen aus dem gigantischen "unmoderierten" Datensatz, der zum Training verwendet wurde. Noch eine kleine Bemerkung: Die gesonderte Zensur zu bestimmten Punkten wird meines Wissens vom chinesischen Staat durch ein KI-Gesetz vorgeschrieben.

Der große Unterschied zwischen DeepSeek-R1 und den anderen Modellen, den wir hier bisher nur implizit dargestellt haben, ist die Offenlegung des Trainingsprozesses und die Wertschätzung und der Fokus auf Forschung und Neuerungen. Mistral zum Beispiel veröffentlicht ab und zu trainierte Modelle für freie Nutzung, aber die Architektur dieser Modelle ist in großen Teilen noch sehr konventionell. DeepSeek hat hier extrem vorgelegt, aber das auch schon seit mittlerweile über einem Jahr. Erst durch R1 haben die ganzen Unterschiede in ihren Modellen und Trainingsprozessen die angemessene Sichtbarkeit erlangt.

Was können wir tun, um hier aufzuholen?

Stefan Kesselheim: DeepSeek hat ein vielköpfiges Team von AI-Ingenieuren, deren Ideen aus dem Mainstream teilweise hervorstechen. Die Neuentwicklung der „Group Relative Policy Optimization“ war sicherlich mit zahlreichen Hürden verbunden und hat vermutlich nicht auf Anhieb funktioniert. Diese explorative Denkweise, bei der nicht der unmittelbare kommerzielle Erfolg im Vordergrund steht, sollte mehr als bisher die AI-Wissenschaft beflügeln.

Jan Ebert: Wir sollten uns mehr Innovation trauen. DeepSeek hat wirklich tolle Arbeit geleistet. Eine schlaue Idee, ein gutes Team, und der Mut, etwas Neuartiges zu probieren, haben hier den Unterschied gemacht. Auch wir in Jülich probieren in Projekten wie TrustLLM dazu beizutragen, dass das Feld der großen KI-Modelle sich weiterentwickelt. Wir gestalten aktiv, und zwar hin zu wissenschaftlicher Transparenz und Open Source. Übrigens kann man einige Modelle von DeepSeek auf unserem Evaluierungsserver Blablador ausprobieren. Für das große R1-Modell fehlen uns allerdings im Moment Ressourcen.

Ansprechpartner:innen

Prof. Dr. Stefan Kesselheim

Head of SDL Applied Machine Learning & AI Consultant team PI in Helmholtz Information Program 1, Topic 1

  • Institute for Advanced Simulation (IAS)
  • Jülich Supercomputing Centre (JSC)
Gebäude 14.14 /
Raum 3023
+49 2461/61-85927
E-Mail
  • Institute for Advanced Simulation (IAS)
  • Jülich Supercomputing Centre (JSC)
Gebäude 14.14 /
Raum 3002
+49 2461/61-96550
E-Mail

Dr. Regine Panknin

Pressereferentin

    Gebäude 15.3 /
    Raum R 3028
    +49 2461/61-9054
    E-Mail

    Letzte Änderung: 14.02.2025