Der Mirage-Effekt: Wenn KIs bei der Bildanalyse Fata Morganas sehen

KI-Systeme könnten bei der Bilderkennung viel schlechter sein, als es Ergebnisse von Benchmarks vorgeben. Der Grund ist der sogenannte Mirage-Effekt.

Multimodale KI-Systeme, die Text und Bild gleichzeitig verarbeiten können, sind inzwischen aus unserem Alltag kaum noch wegzudenken. Viele Menschen nutzen täglich KI-gestützte Anwendungen, um Gesundheitsfragen zu klären, komplexe Diagramme zu entschlüsseln oder Bilder analysieren zu lassen. Dabei vertrauen sowohl Laien als auch medizinisches Fachpersonal zunehmend auf diese Systeme zur Bildanalyse.

Doch was passiert, wenn die KI uns ihr visuelles Verständnis nur vorspielt? Eine aktuelle Studie der Stanford University enthüllt ein verblüffendes und potenziell gefährliches Phänomen moderner KI-Modelle: den sogenannten Mirage-Effekt.

Was ist der Mirage-Effekt?

Multimodale KI-Modelle werden darauf trainiert, Bilder und Texte gemeinsam zu analysieren, um Fragen zu beantworten. Man geht davon aus, dass ein solches System ein Bild benötigt, um eine Frage über dieses Bild zu beantworten. Ohne ein vorliegendes Bild sollte die KI eigentlich mitteilen, dass ihr wesentliche Informationen fehlen. Die Forscher der Stanford University stellten jedoch fest, dass führende Modelle wie GPT-5, Gemini 3 Pro, Claude Opus 4.5 und deren Varianten ein völlig anderes Verhalten zeigen. Wenn man diesen Modellen eine Frage zu einem Bild stellt, ohne ihnen das dazugehörige Bild zu geben, weisen sie nicht etwa auf das fehlende Bild hin. Stattdessen generieren sie bereitwillig und mit absoluter Überzeugung detaillierte Beschreibungen eines Bildes, das sie nie gesehen haben.

Dieses Phänomen wird als Mirage-Effekt bezeichnet. Die KI erschafft eine Art Fata Morgana. In den Tests zeigten alle modernen KI-Modelle dieses Verhalten im Durchschnitt in über 60 Prozent der Fälle, über verschiedene Kategorien hinweg. Nutzt man bestimmte Prompts, die in der KI-Evaluierung üblich sind, steigt diese Rate sogar auf 90 bis 100 Prozent an. Die Modelle beschreiben dann selbstbewusst spezifische Autokennzeichen, Ablaufdaten oder komplexe Gehirnstrukturen, die schlichtweg nicht existieren. Sie erzeugen dabei detaillierte Folgerungsketten, die von einer echten visuellen Analyse nicht zu unterscheiden sind.

Abgrenzung: Mirage-Effekt versus Halluzination

In der KI-Forschung ist das Problem der Halluzination bestens bekannt. Eine Halluzination tritt auf, wenn ein KI-Modell falsche oder unbegründete Details in einem ansonsten gültigen Kontext erfindet. Ein klassisches Beispiel wäre eine KI, die einen realen Aufsatz zusammenfasst, aber frei erfundene Zitate oder Buchquellen hinzufügt. Bei der Bildanalyse kann eine Halluzination bedeuten, dass die KI Details zu einem tatsächlich vorhandenen Bild hinzufügt oder übersieht, um die gestellte Aufgabe scheinbar besser zu erfüllen.

Der Mirage-Effekt ist aber anders: Anstatt nur kleine Fehler innerhalb einer echten Aufgabe zu machen, konstruiert die KI beim Mirage-Effekt einen komplett falschen "epistemischen Rahmen". Man könnte vereinfacht auch schlicht von einem erfundenen Kontext sprechen.

Die KI tut so, als hätte sie einen multimodalen Input inklusive Bild erhalten, obwohl dies nie der Fall war, und baut den gesamten weiteren Dialog auf dieser falschen Grundannahme auf. Das Tückische daran ist: Eine Antwort in diesem Szenario muss in sich nicht widersprüchlich oder offensichtlich falsch sein. Sie kann völlig kohärent sein, begleitet von einer makellosen Logikkette, die perfekt zu dem von der KI imaginierten Bild passt. Genau diese Nachahmung eines echten Wahrnehmungsprozesses macht es so schwer, den Mirage-Effekt zu erkennen, weil die bloße Logik und Überzeugungskraft der Antwort keinen Aufschluss darüber geben, ob wirklich ein Bild analysiert wurde.

Abbildung 1: Der Mirage-Effekt bei der Bilderkennung. Statt einzuräumen, dass eiin Bild fehlt, antwortet die KI häufig auf Basis ausgedachter Details. Quelle: Mohammad Asadi, Jack W. O'Sullivan, Fang Cao, Tahoura Nedaee,Kamyar Fardi, Fei-Fei Li, Ehsan Adeli, Euan Ashley – Stanford University

Der blinde Fleck der KI-Benchmarks

Bislang ging man in der KI-Entwicklung davon aus, dass hohe Trefferquoten bei Bild-Benchmarks ein deutlicher Hinweis auf ein tiefes visuelles Verständnis der Modelle seien. Einige Entwickler behaupteten sogar, ihre Modelle würden menschliche Experten in der Bildauswertung übertreffen.

Die Entdeckung des Mirage-Effekts zeigt dagegen ein massives Problem mit bestehenden Benchmarks. Die Forscher der Stanford University berechneten einen sogenannten „Mirage-Score", der vergleicht, wie gut eine KI bei einem visuellen Test ohne Bilder abschneidet, im Verhältnis zu ihrem Ergebnis mit Bildern. Die Ergebnisse sind ernüchternd: In jedem getesteten Fall war die Genauigkeit, welche die Modelle ohne Bilder erreichten, höher als der zusätzliche Leistungszuwachs, den sie bekamen, wenn die Bilder tatsächlich verfügbar gemacht wurden. Im Durchschnitt behielten führende KI-Modelle im Mirage-Modus ,also komplett blind, 70 bis 80 Prozent ihrer ursprünglichen Genauigkeit bei. Einzelne Benchmarks zeigten eine Anfälligkeit von 60 bis 99 Prozent für nicht-visuelles Raten. Medizinische Benchmarks schnitten dabei besonders schlecht ab, weil sie stark von statistischen Wahrscheinlichkeiten dominiert werden, welche die KI aus ihren Text-Trainingsdaten bereits kennt. Das bedeutet im Klartext: Ein Großteil der visuellen Fragen in heutigen Tests lässt sich allein durch das geschickte Analysieren des Fragetextes richtig beantworten.

LLMs im Vergleich: Benchmarks zur Bilderkennung mit und ohne Bild

Abbildung 2: Ergebnisse bei der Bilderkennung mit und ohne Bild. Quelle: Mohammad Asadi, Jack W. O'Sullivan, Fang Cao, Tahoura Nedaee,Kamyar Fardi, Fei-Fei Li, Ehsan Adeli, Euan Ashley – Stanford University

Der Super-Guesser: Wenn blindes Raten den Experten schlägt

Um zu beweisen, wie anfällig die Testverfahren sind, führten die Forscher ein weiteres Experiment durch. Sie nahmen ein reines Text-KI-Modell (Qwen-2.5), das mit 3 Milliarden Parametern im Vergleich zu heutigen multimodalen Giganten sehr klein ist. Dieses Text-Modell wurde auf einem der größten Benchmarks für Röntgenbilder des Brustkorbs (ReXVQA) trainiert, allerdings wurden im Training alle Bilder entfernt. Das Modell, von den Forschern „Super-Guesser" genannt, musste also lernen, Röntgenbefunde nur anhand der Textstrukturen der Fragen und der Antwortmöglichkeiten zu erraten.

Das Ergebnis war verblüffend: Auf einem unbekannten Testdatensatz übertraf der Text-Super-Guesser nicht nur sämtliche führenden multimodalen KI-Modelle, sondern schnitt auch um durchschnittlich mehr als 10 Prozent besser ab als echte menschliche Radiologen. Der Super-Guesser lieferte plausible medizinische Erklärungen für seine Antworten, die von denen menschlicher Experten nicht zu unterscheiden waren. Wenn ein KI-Modell, das noch nie ein Bild gesehen hat, die besten Bilderkennungs-Modelle der Welt und Ärzte in einem Sehtest schlägt, zieht das die Gültigkeit aller bisherigen Leistungsmessungen für multimodale KIs massiv in Zweifel. Es zeigt, dass Modelle versteckte Text-Hinweise und strukturelle Muster der Benchmarks perfekt ausnutzen können.

Das Rätsel des „Raten"-Modus

Man könnte nun annehmen, dass man der KI einfach sagen muss, dass das Bild fehlt, um ihr Raten zu unterbinden. Es ist in der Evaluierung gängige Praxis, KI-Modelle explizit darauf hinzuweisen, dass kein Bild vorhanden ist, und sie aufzufordern, einfach so gut wie möglich zu raten. Die Studie verglich dazu das Verhalten von GPT-5.1 im unbewussten „Mirage-Modus" (die KI glaubt, es gäbe ein Bild) mit dem bewussten „Raten-Modus" (die KI weiß, dass das Bild fehlt).

Überraschenderweise zeigte sich, dass die Leistung der Modelle erheblich einbricht, wenn man sie explizit zum Raten auffordert. Wenn die KI weiß, dass das Bild fehlt, agiert sie in einem konservativen, reinen Text-Modus und versucht, die Antwort nur aus offenkundigem Wissen abzuleiten. Im Mirage-Modus hingegen scheint die KI auf ganz andere, verborgene Strukturen zuzugreifen. Indem sie sich ein plausibles visuelles Narrativ aufbaut, greift sie auf tiefere Assoziationen zu, die im Raten-Modus blockiert bleiben. Das zeigt, dass der Mirage-Effekt weit mehr ist als nur einfaches Erraten der wahrscheinlichsten Antwort.

Gefährliche Illusionen: Auswirkungen auf verschiedene Einsatzbereiche

Der Mirage-Effekt hat gravierende Konsequenzen für den realen Einsatz von KI, insbesondere in kritischen Bereichen wie der Medizin. Wenn Nutzer einer medizinischen KI ein Bild zur Diagnose übergeben, gehen sie davon aus, dass die Antwort auf diesem Bild basiert. Was aber, wenn ein Bild beim Hochladen in einer App beschädigt wird, die Schnittstelle ausfällt oder das Bild in einem komplexen automatisierten Workflow verloren geht?

Anstatt den Fehler zu melden und das Bild erneut anzufordern, versagt die KI stillschweigend. Sie erfindet ein Bild und liefert eine überzeugend klingende Diagnose. Die Studie analysierte die von der KI erfundenen Diagnosen in fünf medizinischen Fachbereichen: Röntgenbilder, MRT-Scans, Pathologie, Kardiologie (EKGs) und Dermatologie. Das Resultat: Die visuellen Fata Morganas der KI sind extrem krankheitsfixiert. Wenn die KI raten muss, neigt sie systematisch dazu, unter Unsicherheit die alarmierendsten Interpretationen zu wählen. Zu den häufigsten Mirage-Diagnosen gehörten lebensbedrohliche Zustände wie schwere Herzinfarkte, bösartige Melanome oder Karzinome. Solche Diagnosen würden in der Realität sofortige chirurgische Eingriffe oder massive gesundheitspolitische Reaktionen auslösen.

Aber auch in anderen Bereichen sind die potenziellen Auswirkungen groß. Wenn eine KI in einer Überwachungskamera oder bei der Bildanalyse fälschlicherweise Autokennzeichen, Mindeshaltbarkeitsdaten oder Personen erfindet, die gar nicht auf dem Bild zu sehen sind, kann sich das auf die Zuverlässigkeit von Überwachungssystemen, Qualitätskontrollen oder autonomen Agenten auswirken.

Die Lösung: B-Clean und die Zukunft der KI-Bewertung

Die bisherige Reaktion der Forschung auf fehlerhafte Benchmarks bestand meist darin, einfach neue, noch komplexere Tests zu entwickeln. Das ist jedoch ein Kampf gegen Windmühlen. Sobald ein neuer Benchmark im Internet veröffentlicht wird, wird er von den Web-Crawlern erfasst und landet unweigerlich in den Trainingsdaten der nächsten KI-Generation.

Die Forscher aus Stanford präsentieren mit B-Clean einen grundlegend neuen, methodischen Lösungsansatz. B-Clean ist ein sogenanntes Post-hoc-Framework, mit dem sich jeder bestehende Benchmark nachträglich bereinigen lässt, um echte visuelle Fähigkeiten messbar zu machen. Der Ablauf ist logisch und effizient: Zunächst lässt man alle zu testenden KI-Modelle den Benchmark im Mirage-Modus durchlaufen, also komplett ohne Bilder. Jede Frage, die auch nur von einem einzigen Modell ohne Bild richtig beantwortet wird, gilt als kompromittiert. Diese Fragen verraten, dass sie durch Vorwissen, versteckte Muster oder Text-Tricks lösbar sind.

Im nächsten Schritt werden all diese kompromittierten Fragen gnadenlos aus dem Benchmark gelöscht. Zurück bleibt der „B-Clean Benchmark", der ausschließlich Fragen enthält, die zwingend visuelle Informationen erfordern. Die Anwendung dieser Methode auf bestehende Top-Benchmarks war drastisch: Bei MMMU-Pro, MedXpertQA-MM und MicroVQA mussten im Durchschnitt etwa 74 bis 77 Prozent aller Fragen entfernt werden. Als die führenden KI-Modelle dann auf den bereinigten, rein visuellen Fragen getestet wurden, stürzten ihre Erfolgsquoten dramatisch ab. Bei MicroVQA beispielsweise fiel die Leistung von GPT-5.1 von respektablen 61,5 Prozent auf magere 15,4 Prozent. Zudem veränderten sich die Ranglisten der Modelle. Frühere Rankings wurden also massiv durch das nicht-visuelle Raten verfälscht. B-Clean ermöglicht somit erstmals einen echten, visuell fundierten Vergleich von KI-Systemen.

Fazit

Der Mirage-Effekt entlarvt eine bedeutende Schwachstelle moderner künstlicher Intelligenz. Multimodale KI-Systeme können den Eindruck erwecken, hervorragend zu sehen, während sie in Wirklichkeit völlig blind agieren. Sie philosophieren über Bilder, die ihnen nie vorgelegt wurden, und erzielen Spitzenwerte in Tests, ohne echtes visuelles Verständnis zu besitzen.

Hohe Benchmark-Werte dürfen deshalb künftig nicht mehr isoliert als Beweis für visuelle Intelligenz gefeiert werden. Die KI-Entwicklung benötigt dringend einen Paradigmenwechsel. Sogenannte Modalitäts-Ablations-Tests, bei denen systematisch geprüft wird, wie abhängig die KI wirklich vom Bildmaterial ist, müssen zum Standardrepertoire bei jeder Bewertung werden.

Zudem müssen neue Architektur-Designs entwickelt werden, welche die KI zwingen, ihre Annahmen mit dem tatsächlichen visuellen Input abzugleichen, bevor sie eine Antwort generiert.

Nur wenn wir die Illusion des Sehens überwinden und echte, auf Beweisen basierende Fähigkeiten einfordern, können wir multimodale KI-Systeme bauen, die in der Praxis verlässlich, transparent und vor allem sicher sind.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Der Mirage-Effekt: Wenn KIs bei der Bildanalyse Fata Morganas sehen

Was ist der Mirage-Effekt?

Abgrenzung: Mirage-Effekt versus Halluzination

Der blinde Fleck der KI-Benchmarks

Der Super-Guesser: Wenn blindes Raten den Experten schlägt

Das Rätsel des „Raten"-Modus

Gefährliche Illusionen: Auswirkungen auf verschiedene Einsatzbereiche

Die Lösung: B-Clean und die Zukunft der KI-Bewertung

Fazit

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Über den Autor: Christian Kunz

Der Mirage-Effekt: Wenn KIs bei der Bildanalyse Fata Morganas sehen

Was ist der Mirage-Effekt?

Abgrenzung: Mirage-Effekt versus Halluzination

Der blinde Fleck der KI-Benchmarks

Der Super-Guesser: Wenn blindes Raten den Experten schlägt

Das Rätsel des „Raten"-Modus

Gefährliche Illusionen: Auswirkungen auf verschiedene Einsatzbereiche

Die Lösung: B-Clean und die Zukunft der KI-Bewertung

Fazit

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Umfrage: Drei Viertel der Amerikaner sind bei KI-Antworten skeptisch

Stanford-Studie: wie KI-Schmeichelei unser Urteilsvermögen verzerrt

Neue Zahlen von Anthropic: Erfahrene KI-Nutzer erzielen bessere Ergebnisse

Über den Autor: Christian Kunz