Ist das sicher?

KI etabliert sich mehr und mehr als Werkzeug in der Wissenschaft. Wer es nutzen will, sollte auch um die Beschränkungen dieser Methoden wissen: Wieweit lässt sich den Ergebnissen eines Algorithmus trauen? Wie viel Kontrolle ist möglich?

Allwissende Algorithmen, die in Windeseile Aufsätze zu einem beliebigen Thema verfassen, Gedichte schreiben oder Bücher zusammenfassen. Kompetente Chatbots, die wie ein menschlicher Gesprächspartner plaudern. Oder Grafikprogramme, die anhand einer knappen Beschreibung Bilder erzeugen, die zugleich fotorealistisch und surreal erscheinen. Die Werkzeuge der Künstlichen Intelligenz (KI) scheinen in der Mitte der Gesellschaft angekommen zu sein.

Auch in der Wissenschaft spielt KI bereits seit Jahren eine gewichtige Rolle – in der Medizin zum Beispiel als Diagnosehilfe. Die Mustererkennung ist ein Paradebeispiel: Intelligente Algorithmen können beispielsweise auf Computertomografie-Aufnahmen des Gehirns kritische Aneurysmen erkennen, das sind gefährliche Erweiterungen von Blutgefäßen, oder Hautkrebs klassifizieren – in gutartige und bösartige Tumoren.

Bert Heinrichs

Doch auch Algorithmen können falsche Ergebnisse liefern. „Bei 100 Fällen liegen sie vielleicht 99-mal richtig und einmal daneben. Was es schwierig macht: Wir verstehen oft gar nicht, warum sie in dem einen Fall falschliegen“, sagt Prof. Bert Heinrichs, der am Institut für Neurowissenschaften und Medizin (INM-7) die Arbeitsgruppe „Neuroethik und Ethik der KI“ leitet.

Das Unverständnis der Fachleute liegt daran, dass sich die Algorithmen üblicherweise nicht in ihre Karten schauen lassen. Sie fällen ihre Entscheidungen nicht nach vorgegebenen Regeln, sondern lernen selbsttätig. Im Fall der Hautkrebserkennung wird die KI mit unzähligen Fotos von malignen Melanomen – bösartigen Tumoren – gefüttert. Anhand dieser Trainingsdaten sucht sie sich spezifische Merkmale, die diese Krebsform ausmachen. Nach jeder Runde erhält die KI eine Rückmeldung, ob sie falsch- oder richtiglag. Aufgrund dieser Rückmeldung justiert die KI jeweils die Suchmuster nach. Auf diese Weise werden die KI-Ergebnisse während des Trainings immer besser. Aber: An welchen konkreten Eigenschaften eines Bildes die KI ihre Entscheidung festmacht, lässt sich nicht ohne Weiteres sagen. Sie gleicht einer Blackbox. Für Anwender:innen stellt sich daher immer wieder die Frage: Wie verlässlich sind KI-Aussagen? Kann ich den Algorithmen vertrauen?

Erst überlegen, dann rechnen

Stefan Kesselheim

„Gerade in der Forschung lassen sich diese Fragen oft eben nicht so einfach beantworten. Bei einer medizinischen Diagnose kann ich zum Beispiel einen Arzt überprüfen lassen, ob ein Ergebnis korrekt ist. Aber wenn mir die KI einen neuen Werkstoff vorschlägt, kann ich ohne Tests nicht sicher sein, ob er wirklich das leistet, was er soll“, sagt Dr. Stefan Kesselheim. Er leitet am Jülich Supercomputing Centre (JSC) das Simulation and Data Lab „Applied Machine Learning“. Es unterstützt Forschungsgruppen bei der Implementierung neuer KI-Anwendungen. „Eine KI ist immer eine komplizierte Rechenvorschrift, in die eine Eingabe eingeht und ein Ergebnis herauskommt. Bevor ich loslege, muss ich mir genau überlegen, was ich mit dem Ergebnis anfangen kann. Auch bei dieser Einschätzung helfen wir“, so Kesselheim.

Wie verlässlich das gelieferte Ergebnis ist, hängt von vielen Faktoren ab: „Aufgrund des Blackbox-Problems weiß ich nicht genau, wie das Ergebnis zustande gekommen ist.“ Dabei spielt die Auswahl und Art der Daten, mit denen man eine KI einlernt, eine wichtige Rolle. Generell gilt: "Je umfangreicher und vielfältiger die Trainingsdaten, desto besser sind die Vorhersagen“, erklärt der Physiker. Anwender:innen müssen diese Einschränkungen kennen, um die Aussagekraft von KI-Resultaten zu bewerten. „KI ist ein mächtiges Tool, aber nicht allmächtig – und auch nicht wirklich intelligent“, schränkt Kesselheim ein. „So scheitern die Methoden häufig bei der Verallgemeinerung von Erlerntem auf Daten, die sie nicht im Training gesehen haben.“

Wie Kesselheim rät auch Bert Heinrichs dazu, KI-Ergebnisse immer mit einer gewissen Skepsis zu betrachten, also dem Algorithmus nicht blind zu vertrauen. Als Philosoph tut er sich jedoch schwer mit dem Begriff Vertrauen. „Vertrauen ist ein Konzept, das dem zwischenmenschlichen Bereich entstammt: Wir vertrauen anderen Menschen: etwa einer Ärztin oder einem Kollegen“, erläutert er.

„Wir müssen lernen, die Verlässlichkeit von KI einzuschätzen, also lernen, angemessen damit umzugehen, dass wir keinen Einblick in die Blackbox haben.“

Bert Heinrichs

In der Umgangssprache verwenden wir den Begriff aber auch im Hinblick auf Gegenstände, räumt er ein. „Ein Bergsteiger würde möglicherweise sagen, dass er seinem Seil vertrauen kann. Das bedeutet, dass er davon ausgeht, dass das Seil nicht im nächsten Augenblick reißen wird“, beschreibt Heinrichs. Er bevorzugt statt Vertrauen den Begriff Verlässlichkeit. In Bezug auf KI bedeutet das: „Wir müssen lernen, ihre Verlässlichkeit einzuschätzen, das heißt lernen, angemessen damit umzugehen, dass wir keinen Einblick in die Blackbox haben – und Methoden entwickeln, mit denen wir beurteilen können, ob ein Ergebnis sinnvoll ist“, so der Jülicher Forscher.

Alexander Schug

Ob ein Kletterseil verlässlich ist, lässt sich anhand verschiedener Kriterien überprüfen: beim Kauf etwa anhand der Europäische Norm EN 892 oder bei Verschleiß durch Sicht-, Tast- und Belastungstests. Vergleichbare Kontrollkriterien sind auch für die Ergebnisse der KI nötig – und in einigen Fällen auch möglich. Das zeigt etwa die Forschung von Prof. Alexander Schug, der die NIC-Forschungsgruppe „Computational Structural Biology“ leitet. Den Physiker interessieren Proteine: komplexe Eiweißmoleküle, die eine Vielzahl von Aufgaben im Organismus übernehmen. Daher bieten sie ein interessantes Ziel für die Arzneimittelentwicklung. Dazu ist es wichtig, die Funktion eines Proteins im Körper genau zu verstehen. Der Schlüssel dafür verbirgt sich in deren dreidimensionaler Struktur.

Heiliger Gral rückt näher

KI-generierte Illustration KI und Heiliger Gral

Die Struktur experimentell zu ermitteln, ist aufwendig. Daher gibt es schon lange Bestrebungen, die Molekülstruktur aus der Sequenz der einzelnen Bausteine herzuleiten. „Das ist der Heilige Gral der Strukturbiologie“, sagt Alexander Schug. KI-Programme können die drei-dimensionale Struktur eines beliebigen Proteins mittlerweile mit erstaunlich hoher Qualität vorhersagen – und das innerhalb weniger Minuten. Die experimentelle Bestimmung benötigt hingegen Wochen, wenn nicht sogar Monate.

Ein weiterer Vorteil dieser KI-Methoden: Viele liefern nicht nur eine Vorhersage, sondern gleichzeitig eine Abschätzung, inwieweit man dem Ergebnis trauen sollte. Dennoch ist auch für Schug Skepsis unabdingbar: „Man muss jede errechnete Struktur kritisch anschauen und sich fragen, ob dieses Ergebnis plausibel ist. Und wenn wirklich Zweifel bestehen, muss man das Ganze einfach doch experimentell überprüfen“, so der Jülicher Forscher.

Timo Dickscheid

Allerdings lassen sich nicht immer die Ergebnisse der KI-Verfahren von Experten kontrollieren, etwa bei der Forschung von Prof. Timo Dickscheid. Er setzt KI am Institut für Neurowissenschaften und Medizin (INM-1) ein, um riesige Mengen an Bilddaten auszuwerten – und zwar von feinsten Schnitten durch das Gehirn. Die KI hilft unter anderem dabei, Nervenzellen zu erkennen oder die zweidimensionalen Bilder am Rechner wieder zum dreidimensionalen Gewebe zusammenzusetzen. „Solche Algorithmen sind heute ein verbreitetes und sehr hilfreiches Tool in den Neurowissenschaften, zur Überprüfung müssen wir aufgrund der großen Datenmenge aber anders vorgehen als rein experimentell“, sagt Dickscheid.

Stattdessen könne man dafür ein zweites KI-Programm einsetzen, das unabhängig von der ersten KI arbeitet und automatisiert die Qualitätskontrolle übernimmt. „Es vergleicht etwa, wie viele Zellen das erste KI-Programm bei der Auswertung der Bilddaten von Gewebeschnitten markiert hat, und ist darauf spezialisiert, „Überraschungen“ in dem Datenstrom aufzuspüren. Sind bei einem Bild zum Beispiel unerwartet wenige Zellen markiert, schlägt die Kontroll-KI Alarm. „Sie meldet dann ‚Das Ergebnis sieht irgendwie merkwürdig aus, da musst Du noch einmal manuell draufschauen‘“, erläutert Dickscheid.

Verzerrungen vermeiden

Eine weitere Kontrollmöglichkeit besteht darin, Licht in die Blackbox zu werfen – indem man den Algorithmus so gestaltet, dass die von ihm gelieferten Ergebnisse erklärbar werden. „Das nennt sich Explainable AI, so bekommen wir vereinfacht gesagt einen Einblick in die Denkweise der KI“, erläutert Dickscheid. In der Medizin könnte solch eine KI zum Beispiel in Form eines kurzen Textes erläutern, warum sie anhand eines Röntgenbildes zu einem bestimmten Diagnosevorschlag kommt. Dazu wird das Analysetool mit einem Sprachmodell gekoppelt, das Sätze in natürlicher Sprache formuliert und etwa anhand der Verdickung einer Arterie erläutert, warum sich hier ein Aneurysma ausgebildet hat. „Dieses Modell muss natürlich auf den jeweiligen Anwendungsfall angepasst werden. Es sollte also anhand von Fachliteratur trainiert werden, so dass es für seine Antworten aus einem geeigneten Pool von Sachverhalten schöpfen kann“, sagt der Informatiker.

„Das nennt sich Explainable AI, so bekommen wir vereinfacht gesagt einen Einblick in die Denkweise der KI.“

Timo Dickscheid

Umfassendes Training ist generell die Basis für verlässliche Aussagen. Aber auch hier warten Fallstricke, warnt Bert Heinrichs: Für manche Anwendungen liegen einfach nicht genug Daten vor, etwa wenn es um seltene Krankheiten geht. Oder es ist extrem aufwendig, überhaupt Daten zu produzieren. In den Materialwissenschaften kann beispielsweise das Herstellen eines Bildes von keramischen Beschichtungen einen halben Tag dauern. In solchen Fällen lassen sich möglicherweise nicht genügend Daten in einer angemessenen Zeit produzieren.

Doch selbst wenn ausreichend Daten vorhanden sind, kann es zu Verzerrungen kommen. Das passiert zum Beispiel, wenn einseitig trainiert wird, also die Trainingsdaten nicht ausgewogen sind. „Solch eine Verzerrung kann durchaus subtil sein“, sagt Heinrichs. Ist zum Beispiel bei der Hautkrebserkennung in den Trainingsbildern eine bestimmte Hautfarbe überproportional vertreten, dann könnte das dazu führen, dass die KI ein falsches Muster lernt und dadurch manche Tumore übersieht.

Ein anderes Beispiel sind Sprachmodule etwa für Chatbots wie ChatGPT, für Smartphones oder Haushaltsgeräte, bei denen Sprachassistenten auf verbale Fragen und Befehle reagieren. Hier gilt es etwa zu beachten, dass Sprache rassistisch sein kann. Trainingsdaten sollten daher eine gewissen Heterogenität aufweisen, so dass sie das Resultat nicht in eine bestimmte Richtung verzerren.

KI-generierte Illustration KI kontrolliert KI

Der Faktor Mensch

Allerdings sollten die Forscher:innen aus Sicht von Heinrichs stets im Hinterkopf behalten, dass selbst bei sorgfältiger Auswahl der Daten eine gewisse Verzerrung droht: „Zum einen geht jeder Mensch mit einer speziellen Perspektive durch die Welt. Das bedeutet, dass unsere Wertannahmen etwa bei der Auswahl von Trainingsdaten immer ein Stück weit mit drinstecken“, gibt er zu bedenken. „Und zum anderen: Wir wissen gar nicht immer hundertprozentig genau, wie ein heterogener Trainingsdatensatz aussieht. Mögliche Verzerrungen lassen sich deshalb nicht ohne Weiteres antizipieren.“

Wie sehr sich die Fachleute aus der Wissenschaft auf einen KI-Algorithmus verlassen können, hängt also von mehreren Faktoren ab: Wie gut erprobt ist die Methode, welche Kontrollen gibt es, welche Ausgangsdaten standen zur Verfügung? Eine große Rolle spielen aber auch die Konsequenzen, die ein fehlerhaftes Ergebnis nach sich ziehen würde. Wird die Struktur eines Proteins zur Entwicklung von Medikamenten falsch vorgeschlagen, würde sich das spätestens in vorklinischen Studien zeigen. Auch das wäre eine Art Qualitätskontrolle.

Ähnliches gilt für Wettervorhersagen: Zum einen lassen sich Ergebnisse zeitnah überprüfen, zum anderen gelten hier Fehler als weniger dramatisch, da heutige Wettervorhersagen auch nicht immer hundertprozentig zuverlässig sind. Etwas anders sieht es aus bei Klimamodellen, deren Vorhersagen sich auf weitaus größere Zeiträume beziehen. „Es wäre etwa hochproblematisch, wenn eine KI zu dem Schluss käme, der Temperaturanstieg ließe sich mit einer bestimmten Maßnahme stoppen. Und nach Umsetzen dieser Maßnahme stellt sich 20 Jahre später heraus, sie wirkt gar nicht“, gibt Stefan Kesselheim zu bedenken. KI-Ergebnisse sollten nicht als die eine Wahrheit betrachtet werden, sondern nur als Hinweis, so der Physiker.

„Es gilt, eine Art ganzheitlichen Common Sense zu bewahren und uns immer wieder klarzumachen, dass diese Algorithmen nur einen Ausschnitt sehen. Sicherlich kann die KI uns bestimmte Aufgaben sehr effizient abnehmen. Aber in Sachen Verlässlichkeit müssen wir sehr wachsam bleiben und Einzelergebnisse stets kritisch hinterfragen“, fasst Heinrichs zusammen. Auf das menschliche Verstehen von Zusammenhängen werden wir also wohl auch in Zukunft nicht verzichten können.

KI mit Verantwortung

Ob Diskriminierung bei der Bewerbung für einen Job oder Desinformation im Internet: Künstliche Intelligenz braucht einen ethisch-rechtlichen Rahmen. In Europa soll der AI Act dafür sorgen, dass intelligente Algorithmen reguliert werden. Als Berater für mehrere Forschungsprojekte zur KI in Neurowissenschaften und Medizin hat Bert Heinrichs das Gesetzgebungsverfahren genau verfolgt: „Der AI Act sieht vor, dass KI-Systeme nach bestimmten Risikoklassen eingeteilt werden. Und je höher das Risiko, desto strenger werden die Dokumentations- und Prüfpflichten der Hersteller. Anwendungen in der Medizin beispielsweise gehören immer in diese Hochrisikokategorie.“

Auch beim Förderprogramm des renommierten Europäischen Forschungsrat ERC ist die Expertise des Philosophen gefragt – und zwar als Gutachter für die ethische Bewertung von Projektanträgen: „Hier geht es unter anderem ebenfalls um Aspekte einer möglichen Diskriminierung“, erklärt der Forscher. „Wenn wir etwa wissen, dass ein Algorithmus in der Medizin aufgrund einer Verzerrung der Trainingsdaten für eine bestimmte Minderheit nicht richtig funktioniert, dann ist fraglich, ob dafür öffentliche Gelder aufgewendet werden.“

Text: Arndt Reuning | Illustrationen (wurden mithilfe Künstlicher Intelligenz erstellt): SeitenPlan mit Stable Diffusion und Adobe Firefly | Fotos: Forschungszentrum Jülich/Ralf-Uwe Limbach; Mareen Fischinger

Ansprechpersonen

Prof. Dr. Timo Dickscheid

Working Group Leader "Big Data Analytics"

  • Institut für Neurowissenschaften und Medizin (INM)
  • Strukturelle und funktionelle Organisation des Gehirns (INM-1)
Gebäude 15.9 /
Raum 4009
+49 2461/61-1763
E-Mail

Prof. Dr. Bert Heinrichs

Arbeitsgruppenleiter

  • Institut für Neurowissenschaften und Medizin (INM)
  • Gehirn und Verhalten (INM-7)
Gebäude 14.6 /
Raum 301/302
+49 2461/61-96431
E-Mail

Dr. Stefan Kesselheim

Head of SDL Applied Machine Learning & AI Consultant team

  • Institute for Advanced Simulation (IAS)
  • Jülich Supercomputing Centre (JSC)
Gebäude 14.14 /
Raum 3023
+49 2461/61-85927
E-Mail

Prof. Dr. Alexander Schug

Head of the NIC research group Computational Structural Biology

  • Institute for Advanced Simulation (IAS)
  • Jülich Supercomputing Centre (JSC)
Gebäude 16.3 /
Raum 228
+49 2461/61-9095
E-Mail
Text erschienen in effzett Ausgabe 2-2023
Download Ausgabe
Alle Ausgaben
Printabonnement
Letzte Änderung: 29.02.2024