RLCR: Wenn die KI endlich zugibt, dass sie etwas nicht weiß

Forscher der MIT haben eine Technik entwickelt, mit der KI zugeben soll, wenn sie die Antwort auf eine Frage nicht weiß.

Sprachmodelle haben ein Problem mit Selbstüberschätzung. Sie antworten auf jede Frage mit derselben unerschütterlichen Souveränität, und das unabhängig davon, ob sie die Antwort wirklich kennen oder im Grunde nur raten. Forscherinnen und Forscher am MIT haben jetzt nachgewiesen, woher diese Selbstüberschätzung kommt, und gleich eine Methode mitgeliefert, mit der sich das Verhalten gezielt korrigieren lässt.

Das Team am Computer Science and Artificial Intelligence Laboratory (CSAIL) hat die Ursache des Problems im Trainingsverfahren moderner Reasoning-Modelle gefunden. Systeme wie o1 von OpenAI werden mit Reinforcement Learning trainiert: Eine richtige Antwort bringt Belohnung, eine falsche Bestrafung. Dazwischen gibt es nichts. Ein Modell, das sich eine Antwort sorgfältig herleitet, bekommt also exakt dieselbe Belohnung wie eines, das einfach Glück beim Raten hatte. Über Millionen Trainingsdurchläufe lernt das System daraus eine simple Lektion: Antworte selbstbewusst, und das immer.

Die Folgen sind in der Praxis durchaus heikel. Wer ein Sprachmodell für medizinische Einschätzungen, Rechtsfragen oder Finanzentscheidungen einsetzt, möchte schon wissen, wie sicher sich die KI ihrer Sache eigentlich ist. Ein Modell, das mit 95 Prozent Sicherheit auftrumpft, aber nur in der Hälfte der Fälle richtig liegt, ist gefährlicher als eines, das offen falsch antwortet. Beim ersten gibt es schlicht kein Warnsignal, das Anlass zu einer zweiten Meinung geben würde.

Eine kleine Änderung mit großer Wirkung

Die MIT-Methode trägt den etwas sperrigen Namen RLCR, kurz für Reinforcement Learning with Calibration Rewards. Das Prinzip lässt sich gut zusammenfassen: Das Modell soll nicht nur eine Antwort liefern, sondern zusätzlich einschätzen, wie sicher es sich seiner Sache ist. Diese Selbsteinschätzung fließt in die Bewertung mit ein.

Technisch geschieht das über den sogenannten Brier-Score, ein etabliertes statistisches Maß, das die Lücke zwischen behaupteter Sicherheit und tatsächlicher Trefferquote bestraft. Selbstbewusst falsche Antworten werden abgestraft, übervorsichtige richtige aber auch. Das Modell lernt also, sein Vertrauen sauber zu kalibrieren.

Mehul Damani, Doktorand am MIT und Co-Autor der Studie, formuliert das klassische Trainingsproblem so: Der bisherige Ansatz gebe dem Modell schlicht keinen Anreiz, Unsicherheit auszudrücken oder „weiß ich nicht" zu sagen. Also rate es eben, wenn es nicht weiterwisse.

Die Ergebnisse sind überraschend deutlich

Getestet wurde das Verfahren an einem Modell mit sieben Milliarden Parametern, einmal auf Trainingsaufgaben, einmal auf sechs komplett neuen Datensätzen. Der Kalibrierungsfehler sank um bis zu 90 Prozent, und zwar ohne dass die Genauigkeit darunter litt. Im Gegenteil, sie blieb stabil oder verbesserte sich sogar leicht.

Eine weitere Beobachtung, die Co-Autorin Isha Puri hervorhebt: Standardmäßiges Reinforcement Learning verschlechtert die Kalibrierung gegenüber dem unbearbeiteten Basismodell aktiv. Die Modelle werden also gleichzeitig fähiger und überheblicher. RLCR dreht den Effekt um.

Praktisch lässt sich die neue Selbsteinschätzung auch direkt nutzen. Wenn ein Modell mehrere Antwortvarianten generiert, kann man die mit dem höchsten Vertrauenswert auswählen oder bei einem Mehrheitsentscheid entsprechend gewichten. Beides verbessert die Trefferquote spürbar.

Eine zusätzliche Erkenntnis fanden die Autorinnen und Autoren beinahe nebenbei: Das Nachdenken über die eigene Unsicherheit hat einen Wert für sich. Wurden die expliziten Unsicherheitsüberlegungen des Modells in nachgelagerte Klassifikatoren eingespeist, lieferten diese bessere Ergebnisse, besonders bei kleineren Modellen. Die Selbstreflexion enthält also echte Information.

Vorgestellt wird die Arbeit auf der International Conference on Learning Representations Ende des Monats. Sollte sich das Verfahren in der Breite durchsetzen, könnten KI-Antworten künftig ein wenig verlässlicher ausfallen.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

RLCR: Wenn die KI endlich zugibt, dass sie etwas nicht weiß

Eine kleine Änderung mit großer Wirkung

Die Ergebnisse sind überraschend deutlich

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Über den Autor: Christian Kunz

RLCR: Wenn die KI endlich zugibt, dass sie etwas nicht weiß

Eine kleine Änderung mit großer Wirkung

Die Ergebnisse sind überraschend deutlich

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

40-Milliarden-Invest von Google: Anthropic legt gegen OpenAI nach

OpenAI veröffentlicht GPT-5.5: Effizienz und Coding stehen im Mittelpunkt

AI Delusion Spirals: Wie KI-Chatbots Wahnspiralen auslösen können

Über den Autor: Christian Kunz