Geld zurück GarantieErfahrungen & Bewertungen zu Hardwarewartung.com eine Marke von Change-IT
  • OpenAI erklärt, warum es bei LLMs zu Halluzinationen kommt

OpenAI erklärt, warum es bei LLMs zu Halluzinationen kommt

Von |2025-09-06T14:33:46+00:006.9.2025|

Obwohl Sprachmodelle immer leistungsfähiger werden, bleibt eine Herausforderung bestehen, die sich nur schwer vollständig lösen lässt: Halluzinationen. Damit sind Fälle gemeint, in denen ein Modell eine Antwort generiert, die nicht wahr ist. Halluzinationen bleiben eine grundlegende Herausforderung für alle großen Sprachmodelle, die Vertrauen kosten und den Einsatz in sensiblen Bereichen verhindern können.

OpenAI hat dazu jetzt einen neuen Forschungsbericht veröffentlicht, in dem das Unternehmen mögliche Gründe und Maßnahmen gegen Halluzinationen von LLMs beschreibt.

Was Halluzinationen sind

Halluzinationen werden als plausible, aber falsche Aussagen definiert, die von Sprachmodellen (LLMs) generiert werden. Sie können auf überraschende Weise auftreten, selbst bei scheinbar einfachen Fragen.

Gründe für Halluzinationen: die Rolle von Trainings- und Bewertungsverfahren

Eine der wichtigsten Ursachen von Halluzinationen ist, dass Standard-Trainings- und Bewertungsverfahren das Raten gegenüber dem Eingeständnis von Unsicherheit belohnen. Halluzinationen bestehen teilweise, weil die aktuellen Bewertungsmethoden die falschen Anreize setzen.

Das kann mit einem Multiple-Choice-Test verglichen werden: Wenn die Antwort nicht bekannt ist, aber geraten wird, kann das dennoch zu einer richtigen Antwort führen. Eine leere Antwort führt dagegen sicher zu einem Ausbleiben der Belohnung. Auf ähnliche Weise werden Modelle, die nur nach Genauigkeit (Accuracy) bewertet werden, dazu ermutigt zu raten, anstatt einfach einzuräumen, dass sie Antwort nicht oder nicht sicher kennen.

Weiteres Beispiel: Wird ein Sprachmodell nach dem Geburtstag einer Person gefragt und kennt die Antwort nicht, hat es beim Raten eines bestimmten Tages die Chance von immerhin 1 zu 365, damit richtig zu liegen. Eine Antwort wie „Ich weiß es nicht" garantiert dagegen null Punkte.

Über Tausende von Testfragen hinweg schneidet das ratende Modell auf Bestenlisten besser ab als ein vorsichtiges Modell, das Unsicherheit zugibt. Bei Fragen mit einer einzigen richtigen Antwort sind Fehler schlimmer als Enthaltungen, bei denen das Modell keine Vermutung wagt. Die meisten Bestenlisten priorisieren und bewertenModelle jedoch nach Genauigkeit, was ein Grund ist, warum Modelle, selbst wenn sie fortschrittlicher werden, immer noch halluzinieren können, indem sie zuversichtlich falsche Antworten geben, anstatt Unsicherheit zuzugeben.

Erfahren Sie mehr

Ihr Wartungsspezialist im DataCenter

Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Ein konkretes Beispiel hierfür ist die SimpleQA-Bewertung, die im GPT-5 System Card verwendet wird:

  • Das Modell gpt-5-thinking-mini hatte im Test eine Enthaltungsrate (keine spezifische Antwort) von 52 %, eine Genauigkeitsrate von 22 % und eine Fehlerrate von 26 %.
  • Ein älteres Modell, OpenAI o4-mini, hatte eine Enthaltungsrate von nur 1 %, aber eine Genauigkeitsrate von 24 %, gleichzeitig aber eine deutlich höhere Fehlerrate von 75 %. Obwohl das o4-mini-Modell eine leicht höhere Genauigkeit aufwies, war seine Fehlerrate (d.h. die Rate der Halluzinationen) erheblich höher. Das zeigt, dass strategisches Raten bei Unsicherheit die Genauigkeit verbessern, aber Fehler und Halluzinationen erhöhen kann.
  • Wenn Ergebnisse über Dutzende von Bewertungen gemittelt werden, wird meist die Genauigkeitsmetrik verwendet, was eine falsche Dichotomie zwischen richtig und falsch impliziert. Auf vereinfachten Bewertungen wie SimpleQA erreichen einige Modelle nahezu 100 % Genauigkeit und eliminieren damit Halluzinationen. Bei anspruchsvolleren Bewertungen und im realen Einsatz ist die Genauigkeit jedoch auf begrenzt, weil einige Fragen aus verschiedenen Gründen wie nicht verfügbaren Informationen, begrenzten Denkfähigkeiten kleiner Modelle oder Unklarheiten nicht beantwortet werden können.

Woher Halluzinationen bei der „Next-Word-Prediction" kommen

Neben den Bewertungsanreizen liegt ein grundlegender Ursprung der Halluzinationen in der Art und Weise, wie Sprachmodelle lernen. Modelle lernen zunächst durch Pretraining, einen Prozess der Vorhersage des nächsten Wortes in riesigen Textmengen. Im Gegensatz zu traditionellen Problemen des maschinellen Lernens gibt es keine „wahr/falsch"-Markierung für jede Aussage. Das Modell sieht nur positive Beispiele flüssiger Sprache und muss die Gesamtverteilung approximieren.

Es ist doppelt schwierig, gültige von ungültigen Aussagen zu unterscheiden, wenn keine ungültigen Beispiele gekennzeichnet sind. Aber selbst mit Labels sind einige Fehler unvermeidlich. Als Analogie kann die Bilderkennung dienen: Wenn Millionen von Katzen- und Hundefotos als „Katze" oder „Hund" gekennzeichnet sind, können Algorithmen sie zuverlässig klassifizieren. Würde jedoch jedes Tierfoto mit dem Geburtstag des Haustieres gekennzeichnet – einer im Wesentlichen zufälligen Information –, würde diese Aufgabe immer zu Fehlern führen, egal wie fortschrittlich der Algorithmus ist.

Das gleiche Prinzip gilt beim Pretraining. Rechtschreibung und Klammern folgen konsistenten Mustern. Daher verschwinden Fehler dort mit zunehmender Skalierung. Aber willkürliche, selten vorkommende Fakten wie der Geburtstag eines Haustieres können nicht allein aus Mustern vorhergesagt werden und führen daher zu Halluzinationen. 

Wege zur Verbesserung: eine bessere Bewertung von LLMs

Es gibt eine unkomplizierte Lösung, um die Halluzinationen zu reduzieren: Fehler werden stärker bestraft als Unsicherheit. Für das Einräumen von Unsicherheit kann es einen Teil der Belohnung geben.

Diese Idee ist nicht neu; einige standardisierte Tests verwenden seit langem negative Punkte für falsche Antworten oder Teilanrechnungen für unbeantwortete Fragen, um blindes Raten zu unterbinden.

Es reicht aber nicht aus, nur einige neue Tests hinzuzufügen. Die weit verbreiteten, auf Genauigkeit basierenden Bewertungen müssen aktualisiert werden, damit ihre Punktvergabe das Raten unterbindet. Wenn die Bestenlisten weiterhin das Raten auf gut Glück belohnen, werden die Modelle lernen, dies weiterhin zu tun.

Eine Anpassung der Bewertungssysteme könnte die Akzeptanz von Techniken zur Reduzierung von Halluzinationen fördern – sowohl neuer als auch bereits bestehender.

Erkenntnisse und Missverständnisse über Halluzinationen

OpenAI unterzieht in seinem Beitrag einige Behauptungen zu Halluzinationen von LLMs einer Überprüfung:

Behauptung: Halluzinationen werden durch die Verbesserung der Genauigkeit eliminiert

Erkenntnis: Die Genauigkeit wird niemals 100 % erreichen, weil einige reale Fragen, unabhängig von Modellgröße und Fähigkeiten, von Natur aus unbeantwortbar sind.

Behauptung: Halluzinationen sind unvermeidlich.

Erkenntnis: Das sind sie nicht, weil sich Sprachmodelle enthalten können, wenn sie unsicher sind.

Behauptung: Die Vermeidung von Halluzinationen erfordert ein Maß an Intelligenz, das ausschließlich mit größeren Modellen erreichbar ist

Erkenntnis: Es kann für ein kleines Modell einfacher sein, seine Grenzen zu kennen. Ein kleines Modell, das zum Beispiel kein Māori beherrscht, kann einfach sagen „Ich weiß es nicht", während ein Modell, das etwas Māori kennt, erst bestimmen muss, mit welcher Zuversicht es eine Antwort geben kann. Kalibriert zu sein erfordert weitaus weniger Rechenleistung als genau zu sein.

Behauptung: Halluzinationen sind ein mysteriöser Fehler in modernen Sprachmodellen

Erkenntnis: Die statistischen Mechanismen, durch die Halluzinationen entstehen und in Bewertungen belohnt werden, sind verstanden.

Behauptung: Um Halluzinationen zu messen, braucht es nur eine gute Halluzinationsbewertung

Erkenntnis: Halluzinationsbewertungen wurden veröffentlicht, haben aber wenig Wirkung gegenüber Hunderten traditioneller Bewertungen, die Genauigkeit und das Raten belohnen, dafür aber Bescheidenheit bestrafen oder nicht belohnen. Stattdessen müssen alle primären Bewertungsmetriken überarbeitet werden, um das Ausdrücken von Unsicherheit zu belohnen.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Weitere Artikel

Über den Autor:

Christian Kunz ist ein bekannter Experte für SEO, Suchmaschinen und die Optimierung für LLMs. Er war außerdem Koordinator für die IT eines Unternehmensbereichs in einem deutschen Internet-Konzern sowie IT-Projektmanager. LinkedIn-Profil von Christian: Christian Kunz
Nach oben