Das MIT hat einen neuen Ansatz vorgestellt, mit dem sich die Unsicherheit von LLMs zuverlässiger messen lässt.
KI-Sprachmodelle wie ChatGPT treten oft mit großer Überzeugungskraft auf, und das selbst dann, wenn sie völligen Unsinn erzählen. Dieses Phänomen der Halluzinationen ist ein großes Problem, wenn wir uns auf ihre Antworten verlassen wollen. Bisherige Methoden, um die Unsicherheit einer KI zu messen, scheitern oft genau an diesem übertriebenen „Selbstvertrauen" der LLMs. Forscher des MIT haben nun einen neuen Ansatz entwickelt, der genau diese Schwäche behebt, indem er Modelle einem Realitätsabgleich mit anderen KIs unterzieht.
Um zu verstehen, wie das funktioniert, müssen wir zwei grundlegende Arten der Unsicherheit unterscheiden: die aleatorische und die epistemische Unsicherheit.
Das Problem mit dem blinden Selbstvertrauen: aleatorische Unsicherheit
Bisherige Ansätze zur Fehlererkennung bei KIs konzentrieren sich meist auf die sogenannte aleatorische Unsicherheit (AU). Diese misst im Grunde die interne Unsicherheit oder Sprunghaftigkeit eines Modells. Der Begriff "Alea" stammt aus dem Lateinischen und bedeutet "Würfel", kann aber auch allgemein ein Glücksspiel bezeichnen.
In der Praxis funktioniert die Messung der aleatorischen Unsicherheit über Eigenkonsistenz: Man stellt der KI dieselbe Frage einfach mehrmals. Wenn das Modell jedes Mal eine völlig andere Antwort generiert, ist seine aleatorische Unsicherheit hoch. Das Modell „zweifelt". Gibt es aber immer wieder dieselbe Antwort, gilt es als sicher.
Das große Problem dabei: Ein Sprachmodell kann extrem selbstsicher, aber dennoch komplett falsch liegen. Wenn die KI hartnäckig immer wieder denselben falschen Fakt erfindet, also halluziniert, fällt die aleatorische Unsicherheit auf null und das System schlägt keinen Alarm.
Der Blick über den Tellerrand: epistemische Unsicherheit
Um diesen blinden Fleck zu beseitigen, bringt der neue Ansatz die epistemische Unsicherheit (EU) ins Spiel. Während die aleatorische Unsicherheit fragt: „Wie sicher ist sich das Modell in seiner Vorhersage?", fragt die epistemische Unsicherheit: „Wie sehr sollten WIR diesem speziellen Modell überhaupt vertrauen?". Die EU misst die Unsicherheit, die dadurch entsteht, dass wir vielleicht nicht das optimale Modell für diese spezielle Frage verwenden.
Weil es das eine perfekte Modell nicht gibt, nutzen die Forscher des MIT einen cleveren Trick: Sie befragen eine kleine Gruppe von anderen, ähnlich leistungsstarken Sprachmodellen, die von unterschiedlichen Entwicklern stammen.
Wenn das ursprüngliche Modell felsenfest von einer falschen Antwort überzeugt ist, werden die anderen Modelle mit hoher Wahrscheinlichkeit ganz andere Antworten geben. Diese inhaltliche Abweichung, also die semantische Diskrepanz zwischen den Modellen, deckt die epistemische Unsicherheit auf.
Ein großer Vorteil dieser Methode ist, dass sie rein über die generierten Textantworten funktioniert. Es handelt sich also um ein Black-Box-Verfahren, das keinen direkten Zugriff auf die komplexe, innere Programmierung der Modelle erfordert.
Abbildung 1: Hohe epistemische Unsicherheit trotz hoher Eigenkonsistenz. Quelle: MIT
Weil es das eine perfekte Modell nicht gibt, nutzen die Forscher des MIT einen cleveren Trick: Sie befragen eine kleine Gruppe von anderen, ähnlich leistungsstarken Sprachmodellen, die von unterschiedlichen Entwicklern stammen.
Wenn das ursprüngliche Modell felsenfest von einer falschen Antwort überzeugt ist, werden die anderen Modelle mit hoher Wahrscheinlichkeit ganz andere Antworten geben. Diese inhaltliche Abweichung, also die semantische Diskrepanz zwischen den Modellen, deckt die epistemische Unsicherheit auf.
Ein großer Vorteil dieser Methode ist, dass sie rein über die generierten Textantworten funktioniert. Es handelt sich also um ein Black-Box-Verfahren, das keinen direkten Zugriff auf die komplexe, innere Programmierung der Modelle erfordert.
Die Lösung: Totale Unsicherheit
Die Kombination aus beiden Werten ergibt schließlich die Totale Unsicherheit (TU = AU + EU). Durch diese einfache Addition entsteht ein deutlich robusteres Messinstrument: Das Modell wird sowohl auf interne Widersprüche (aleatorisch) als auch auf externe Meinungsverschiedenheiten mit anderen KIs (epistemisch) geprüft.
Umfangreiche Tests zeigen, dass die Totale Unsicherheit herkömmlichen Methoden weit überlegen ist, wenn es darum geht, selbstsichere, aber falsche Antworten von echten Fakten zu unterscheiden.
Anwendungsmöglichkeiten in der Praxis
Der neue Ansatz bietet große Vorteile für den realen Einsatz von KI-Systemen:
- Einsatz in Hochrisiko-Bereichen: In Feldern wie der Medizin, der Rechtsberatung oder im Finanzwesen können KI-Fehler fatale Folgen haben. Zuverlässige Unsicherheitsschätzungen sind hier eine absolute Grundvoraussetzung, um Sprachmodelle überhaupt sicher einsetzen zu können.
- Intelligentes Schweigen (selektive Vorhersage): Wenn wir die totale Unsicherheit eines Modells kennen, können wir Schwellenwerte festlegen. Ist die Unsicherheit zu hoch, verweigert die KI schlichtweg die Antwort, anstatt wild zu raten. Tests belegen, dass sich die Fehlerquote der KI durch dieses selektive Antworten drastisch senken lässt.
- Faktenprüfung und Übersetzungen: Die Methode funktioniert besonders gut bei Aufgaben, bei denen es nur eine eindeutig richtige Antwort gibt, wie wie etwa bei gezielten Wissensfragen oder bei Übersetzungen. Hier deckt die mangelnde Einigkeit zwischen verschiedenen Modellen Faktenfehler besonders treffsicher auf.
Fazit und Bewertung
Wir müssen uns nicht länger auf die bloße Selbstsicherheit einer einzelnen KI verlassen. Indem wir Sprachmodelle quasi in eine „Diskussionsrunde" mit ihren KI-Kollegen schicken, können wir wesentlich besser beurteilen, ob wir einer Antwort vertrauen dürfen oder nicht.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
Eignen sich KI-Token als neue Währung?
Angesichts des rasant steigenden Verbrauchs von KI-Token stellt sich die Frage, ob sich diese als Währung und Invest eignen.
Vibe Coding: Grundlagen, Tools und Praxis
Vibe Coding revolutioniert die Softwareentwicklung und stürzt Teile der Wirtschaft in eine tiefgreifende Krise. Gleichzeitig eröffnen sich bisher ungeahnte Möglichkeiten.
Sam Altman bedankt sich bei Software-Entwicklern und erntet Spott und Ärger
Sam Altman hat sich in einem Tweet bei den Softwareentwicklern für ihre Arbeit bedankt. Dabei hat er entscheidend dazu beigetragen,