"Humanity's Last Exam" bringt KI an ihre Grenzen
3. Februar 2025
Interview mit Dr. Sören Möller zu dem Test, der selbst die besten KI-Modelle scheitern lässt
Moderne KI-Modelle verblüffen regelmäßig mit ihrer Leistungsfähigkeit: Sie lösen komplexe mathematische Aufgaben, analysieren wissenschaftliche Texte und schreiben sogar Gedichte – sachlich präzise und sprachlich elegant, was vor wenigen Jahren noch unmöglich schien. Doch ein neuer Test, "Humanity's Last Exam", zeigt die Grenzen dieser Technologie auf. Selbst Spitzenmodelle wie GPT-4 und Google Gemini scheitern in vielen Bereichen kläglich. Ihre Erfolgsquote liegt unter zehn Prozent.

Entwickelt wurde der Test von den US-Organisationen Scale AI und dem Center for AI Safety (CAIS). Die Arbeit wurde vor einigen Tagen als wissenschaftliche Publikation auf dem Preprint-Server arXiv veröffentlicht. Rund 1000 Fachleute aus 50 Ländern steuerten Aufgaben bei. Am Ende wählten die Forschenden 3000 Fragen aus Mathematik, Natur- und Geisteswissenschaften sowie weiteren Gebieten aus – so anspruchsvoll, dass selbst Menschen ins Grübeln kommen.
Einer der Mitautoren ist Dr. Sören Möller, Materialwissenschaftler am Forschungszentrum Jülich. Im Interview erklärt er, was diesen Test so besonders macht und welche Lehren sich daraus ziehen lassen.
Was war Ihre Rolle bei dem Projekt?
Ich habe drei Fragen zu dieser Sammlung beigesteuert. Das ist nur ein bescheidener Beitrag aber die Entwicklung der Fragen war tatsächlich nicht so einfach. Ich fing mit verschiedenen aktuellen Themen in meinem Forschungsbereich und mit Fragen zur Ionenstrahlanalytik und zum Strahlenschutz an. Diese Themen sind sehr speziell und gehen deutlich über einen Masterabschluss hinaus. Die Modelle konnten meine Fragen zunächst allerdings problemlos beantworten. Erst bei komplexeren mehrstufigen Aufgaben mit herausfordernder Logik konnte ich alle KI-Modelle an ihre Grenzen bringen.
Was genau prüft „Humanity's Last Exam“?
In einem Satz gesagt prüft der Test, ob ein Large Language Model oder abgekürzt LLM, wie z.B. ChatGPT4, an der Uni einen akademischen Abschluss, also einen Master oder eine Promotion, erzielen könnte.

Um ein technisches Produkt wie ein LLM weiterzuentwickeln braucht es ein Maß für dessen Qualität. Bei Batterien ist das z.B. die Energiedichte oder der Preis pro kWh. Für LLMs gibt es viele Tests, sogenannte Benchmarks, die eine Punktzahl ergeben und „Humanity's Last Exam“ ist erstmal nur ein weiterer. Viele der bestehenden Tests haben aber mittlerweile durch die Fortschritte bei den LLMs an Aussagekraft verloren. Viele der heutigen KI-Modelle sind darin einfach schon zu gut. Weitere Fortschritte in der Leistung der LLMs lassen sich daher damit kaum noch abbilden, weil diese die Erfolgswertung nicht mehr signifikant verändern würden. „Humanity's Last Exam“ ist dagegen viel komplexer als bisherige Tests, sodass wir damit die nächste Stufe der LLM-Entwicklung überhaupt erst beschreiben und erkennen können.
Wie haben die Modelle genau abgeschnitten?
Katastrophal. Das beste Modell konnte nicht einmal 10 Prozent der Fragen richtig beantworten. Dieses Versagen bei akademischen Aufgaben ist ein sehr interessanter Kontrast zu den exzellenten Ergebnissen, die wir bei der Nutzung als Chatbot oder Übersetzer bekommen. Gleichzeitig fragt „Humanity's Last Exam“ die LLMs, wie sicher sie sich bei der Antwort sind und auch hier lagen alle LLMs in ihrer Selbsteinschätzung katastrophal daneben.
Interessanter Aspekt dabei: DeepSeek-R1 hat kürzlich für Aufruhr in der KI Welt gesorgt da es ca. 20x günstiger vergleichbare Ergebnisse wie amerikanische LLMs erzielt. „Humanity's Last Exam“ bestätigt dies mit Einschränkungen. DeepSeek-R1 liefert hier bei Textaufgaben, noch vor der für wissenschaftliche Aufgaben optimierten o1-Version von ChatGPT, die beste Antwortqualität.
Warum ist das Ergebnis so schlecht ausgefallen?
Diese Frage ist noch Gegenstand der Forschung. Ein Kern des Problems ist meiner Ansicht nach, dass die Modelle nach wie vor nicht wirklich intelligent sind. LLMs können keine Denkmethoden wie eine Zerlegung des Problems oder eine Konsistenzprüfung der Antwort anwenden. Als Mensch beantworten sie eine komplexe Frage nicht direkt, sondern sie denken erst auf mehreren Ebenen darüber nach. Sie kramen in ihren geistigen Schubladen, überlegen sich Antworten und verwerfen manche im direkten Vergleich mit anderen Antwortmöglichkeiten.
Aktuelle Ansätze versuchen dies den LLMs beizubringen. Der Schubladen-Ansatz nennt sich „Mixture of Experts“. Hierbei versucht das LLM zuerst die Anfrage einzusortieren und nutzt dann nur einen kleinen Teil seines neuralen Netzes, den passenden Experten, um die Antwort zu generieren. Positiver Nebeneffekt: Dadurch braucht es viel weniger Ressourcen als ein LLM, das sein komplettes Netzwerk für die Antwort auswertet. Der innere Vergleich von Antworten wird über ein Chains-of-Thought-Konzept implementiert, in dem LLMs ihre Antworten begrenzt selbstständig verifizieren, um bessere Ergebnisse zu erzielen. DeepSeek-R1 und ChatGPT-o1 verwenden diese beiden Ansätze. Dass diese beiden Modelle bei „Humanity's Last Exam“ am besten abschneiden weist darauf hin, dass der Ansatz funktionieren könnte.
Welche Konsequenzen hat die hohe Fehlerrate für den Einsatz dieser Modelle?
Gerade in der Wissenschaft haben wir nun erstmalig ein quantitatives Maß für unsere bisher eher gefühlsmäßige Skepsis an den Fähigkeiten der LLMs. Wir haben das Problem zuletzt auch bei der Prüfung der KI-Verlagsprogramme durch unsere Zentralbibliothek hier am Forschungszentrum Jülich gesehen. Die KI-Programme zur Literaturrecherche waren schlicht unbrauchbar. Auch Kolleginnen und Kollegen am Jülich Supercomputing Centre haben letztes Jahr ein verheerendes Fazit zu den Logikfähigkeiten von LLMs gezogen (arxiv.org/pdf/2406.02061).
Man muss sehen: Wissenschaftliche Zuarbeiten wie Programmierung oder Anbieterrecherchen durch die KI funktionieren bereits gut, hier bietet „Humanity's Last Exam“ keine neuen Erkenntnisse. Aber das schlechte Abschneiden bei dem Test verdeutlicht: Wissenschaftliche Kernaufgaben wie das wissenschaftliche Schreiben, die Modellentwicklung oder die Dateninterpretation können LLMs momentan noch nicht zuverlässig erledigen.
Die Fragen bei diesem Test sind natürlich sehr anspruchsvoll, wahrscheinlich wird sie auch kein Mensch zu 100 Prozent richtig beantworten können. Aber eine 80-prozentige Erfolgsquote zu erreichen wäre ein wichtiges Zwischenziel für die KI, bevor wir über weitere Anwendungen nachdenken. Ich vermute aber, dass wir hierfür noch erhebliche Änderungen der Struktur der LLMs benötigen, um komplexe Denkprozesse, zum Beispiel durch einen inneren Monolog oder die Zerlegung von Aufgaben in einfach zu beantwortende Teile, zu ermöglichen.
>>> Datensatz: Humanity's Last Exam
Ansprechpartner:innen
- Institute of Energy Materials and Devices (IMD)
- Werkstoffsynthese und Herstellungsverfahren (IMD-2)
Raum 029a