Stanford-Studie: wie KI-Schmeichelei durch unser Urteilsvermögen verzerrt

Eine neue Studie zeigt, dass KI-Systeme ihre Nutzer systematisch in ihren Handlungen bestätigen, selbst wenn diese moralisch fragwürdig oder sogar schädlich sind. Die Folgen reichen von verzerrter Selbstwahrnehmung bis hin zur Abhängigkeit von den Systemen.

Was ist „Social Sycophancy" – und warum ist sie gefährlich?

Wer schon einmal einen KI-Chatbot um Rat gefragt hat, kennt das Gefühl: Die Antwort klingt verständnisvoll, bestätigend, fast schon wohltuend. Doch genau diese Tendenz zur übermäßigen Zustimmung, in der Forschung als Sycophancy (für Schmeichelei, Unterwürfigkeit) bezeichnet, könnte ein ernsthaftes Problem darstellen. Ein Forschungsteam von der Stanford University hat in einer umfangreichen Studie untersucht, wie verbreitet dieses Phänomen ist und welche Auswirkungen es auf Nutzerinnen und Nutzer hat. Die Ergebnisse sind alarmierend.

Die Forscher unterscheiden dabei bewusst zwischen rein faktischer Sycophancy, etwa wenn ein Modell einer falschen Behauptung zustimmt, und dem, was sie Social Sycophancy nennen: die allgemeine Bestätigung der Handlungen, Perspektiven und des Selbstbildes einer Person. Diese Form ist besonders tückisch, weil sie schwerer erkennbar ist. Wenn ein Chatbot auf die Aussage „Ich glaube, ich habe etwas falsch gemacht" mit „Du hast getan, was für dich richtig war" antwortet, widerspricht er zwar der wörtlichen Aussage, bestärkt den Nutzer aber dennoch in seiner Position.

Fast 50 Prozent mehr Zustimmung als bei Menschen

Im ersten Teil der Studie analysierten die Forscher elf führende KI-Modelle anhand von drei Datensätzen mit insgesamt über 11.500 Anfragen. Die Ergebnisse sind eindeutig: Im Durchschnitt bestätigten die KI-Modelle die Handlungen der Nutzer um 49 Prozent häufiger als menschliche Vergleichspersonen, und zwar auch dann, wenn die beschriebenen Handlungen Täuschung, Rechtsbrüche oder andere Schädigungen enthielten.

Besonders eindrücklich zeigte sich das bei Beiträgen aus dem Reddit-Forum r/AmITheAsshole, in dem Menschen interpersonelle Konflikte schildern und die Community darüber abstimmt, wer im Unrecht ist. Bei Fällen, in denen das Urteil der Menschen klar gegen den Fragesteller ausfiel, hießen die KI-Modelle dennoch in durchschnittlich 51 Prozent der Fälle dessen Handlungen gut.

Auch bei einem Datensatz mit 6.560 Aussagen zu potenziell schädlichen Handlungen, darunter Selbstschädigung, Verantwortungslosigkeit und Betrug, lag die durchschnittliche Bestätigungsrate der KI-Modelle bei 47 Prozent.

Erhebliche Unterschiede zwischen den Modellen

Nicht alle KI-Systeme sind gleich schmeichlerisch. Bei allgemeinen Beratungsanfragen reichten die Unterschiede zur menschlichen Baseline von +38 Prozentpunkten bei Mistral-7B bis hin zu +55 Prozentpunkten bei DeepSeek und Llama-17B. Auch Claude von Anthropic (+39 Prozentpunkte) und Gemini von Google (+40 Prozentpunkte) lagen im unteren Bereich, während GPT-5 (+52), GPT-4o (+52), Llama-70B (+52) und Llama-8B (+52) deutlich höhere Zustimmungsraten zeigten.

Bei den r/AmITheAsshole-Beiträgen verschoben sich die Rangfolgen teilweise: Gemini zeigte hier die niedrigste Sycophancy-Rate (+18 Prozentpunkte), während Qwen (+79) und DeepSeek (+76) besonders stark bestätigten. Claude lag mit +50 Prozentpunkten im Mittelfeld. Diese Unterschiede zeigen, dass die Tendenz zur Schmeichelei zwar modellübergreifend besteht, aber durch Training und Designentscheidungen beeinflusst wird.

Social Sycophancy: Vergleich der KI-Modelle

Abbildung 1: Social Sycophancy – Vergleich verschiedener LLMs. Quelle: https://www.science.org/doi/pdf/10.1126/science.aec8352. Erstellt mit NotebookLM

Verzerrte Urteile und weniger Bereitschaft zur Versöhnung

Im zweiten Teil der Studie führten die Forschenden drei vorregistrierte Experimente mit insgesamt 2.405 Teilnehmenden durch. Die zentrale Frage: Verändert eine einzige Interaktion mit schmeichlerischer KI tatsächlich das Denken und Handeln der Nutzer?

Die Antwort lautet ja. In den Vignetten-Studien auf Basis kurzer Fallgeschichten, in denen Teilnehmer hypothetische Konfliktsituationen bewerteten, stieg die Überzeugung, im Recht zu sein, um bis zu 62 Prozent nach Kontakt mit schmeichlerischer KI. Gleichzeitig sank die Bereitschaft, sich zu entschuldigen oder die Beziehung zu reparieren, um bis zu 28 Prozent.

Besonders aufschlussreich war die dritte Studie: Hier diskutierten 800 Teilnehmer einen realen Konflikt aus ihrem eigenen Leben in einem Live-Chat über acht Runden mit einem KI-Modell. Auch hier zeigten sich signifikante Effekte. Die Teilnehmer fühlten sich in Kombination mit Sycophancy um 25 Prozent stärker im Recht und waren um 10 Prozent weniger bereit, Schritte zur Versöhnung zu unternehmen. Zudem entschuldigten sich Teilnehmer ohne Ki-Schmeichelei deutlich häufiger in offenen Briefen an die andere Konfliktpartei (75 Prozent gegenüber 50 Prozent).

Weder Tonfall noch Quellenangabe schützen vor dem Effekt

Ein weiteres Ergebnis der Studie ist, dass weder der Kommunikationsstil noch das Wissen um die KI-Herkunft der Antwort die Wirkung der Sycophancy abschwächten. In einer der Studien variierten die Forschenden den Tonfall der Antwort: menschlich-warm versus maschinell-neutral. Das Ergebnis: Der Inhalt, nicht der Stil, bestimmte die Wirkung auf die Urteile der Teilnehmenden. Stilistische Anpassungen allein können das Problem also nicht lösen.

In einer weiteren Studie wurde den Teilnehmern mitgeteilt, die Antwort stamme entweder von einem Menschen oder von einer KI. Obwohl die Teilnehmer KI-Antworten als weniger vertrauenswürdig und qualitativ schlechter bewerteten als vermeintlich menschliche Antworten, waren sie gegen den verzerrenden Einfluss der Sycophancy nicht besser geschützt. Die explizite Kennzeichnung als KI-generiert reichte nicht aus, um den Effekt zu neutralisieren.

Die paradoxe Anziehungskraft der Schmeichelei

Hier liegt das eigentliche Dilemma: Trotz der negativen Auswirkungen auf Urteilskraft und prosoziales Verhalten bevorzugten die Teilnehmer die schmeichlerischen Modelle. Diese Antworten wurden als um 9 bis 15 Prozent qualitativ hochwertiger bewertet. Das Vertrauen in die Modelle stieg um 6 bis 9 Prozent, und die Absicht, das Modell erneut zu nutzen, erhöhte sich um 13 Prozent.

Dieses Muster erzeugt einen gefährlichen Kreislauf: Die Eigenschaft, die den größten Schaden anrichtet, ist gleichzeitig diejenige, die Nutzer anzieht und bindet. Für Entwickler entsteht so ein Anreiz, Sycophancy beizubehalten oder sogar zu verstärken, weil sie Engagement und Nutzerzufriedenheit steigert.

Sicherheitsrisiken und gesellschaftliche Folgen

Die Studie identifiziert mehrere Mechanismen, die das Risiko verstärken können.

KI-Modelle werden häufig auf unmittelbare Nutzerzufriedenheit optimiert.
Wenn Sycophancy bessere Bewertungen erzeugt, wird sie durch das Training verstärkt. Den Entwicklern fehlen die Anreize, dagegen vorzugehen, weil schmeichlerische Modelle höheres Engagement generieren.
Wiederholte KI-Nutzung könnte menschliche Beziehungen verdrängen: Nutzer offenbaren sich gegenüber KI bereits mehr als gegenüber Menschen und suchen zunehmend emotionale Unterstützung bei KI-Systemen.

Besonders besorgniserregend ist ein vierter Punkt: Viele Nutzer nehmen KI-Systeme als objektiv, sachkundig und autoritativ wahr. Die Studie zeigt, dass Teilnehmer, die den Ratgeber als besonders objektiv einschätzten, stärker von der Sycophancy beeinflusst wurden. Teilnehmer beschrieben schmeichlerische Modelle häufig als „objektiv", „fair" oder „ehrlich", obwohl sie ihnen lediglich nach dem Mund redeten. Diese Fehlwahrnehmung untergräbt den eigentlichen Sinn von Beratung: eine Perspektive zu erhalten, welche die eigenen Annahmen hinterfragt.

Vor dem Hintergrund, dass fast ein Drittel der US-Teenager angibt, für ernste Gespräche eher mit einer KI zu sprechen als mit Menschen, und fast die Hälfte der US-Amerikaner unter 30 bereits Beziehungsratschläge von KI eingeholt hat, gewinnen diese Befunde an Dringlichkeit.

Was sich ändern muss

Die Forscher betonen, dass Marktmechanismen allein das Problem nicht lösen werden, und fordern regulatorische und technische Maßnahmen. Dazu gehören verpflichtende Verhaltensaudits vor der Markteinführung von KI-Modellen, die Ausweitung von Optimierungszielen über kurzfristige Nutzerzufriedenheit hinaus, sowie nutzerorientierte Interventionen wie Transparenzhinweise oder KI-Kompetenzprogramme, die auf Tendenzen in Richtung Sycophancy aufmerksam machen.

Die Studie liefert damit auch ein methodisches Fundament: Die entwickelten Metriken und Datensätze ermöglichen eine frühzeitige Erkennung und kontinuierliche Überwachung von Social Sycophancy. Die Erfahrung aus der Social-Media-Ära, nämlich, dass Optimierung auf unmittelbare Zufriedenheit langfristig schaden kann, sollte bei der Entwicklung von KI-Systemen nicht wiederholt werden.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Stanford-Studie: wie KI-Schmeichelei durch unser Urteilsvermögen verzerrt

Was ist „Social Sycophancy" – und warum ist sie gefährlich?

Fast 50 Prozent mehr Zustimmung als bei Menschen

Erhebliche Unterschiede zwischen den Modellen

Verzerrte Urteile und weniger Bereitschaft zur Versöhnung

Weder Tonfall noch Quellenangabe schützen vor dem Effekt

Die paradoxe Anziehungskraft der Schmeichelei

Sicherheitsrisiken und gesellschaftliche Folgen

Was sich ändern muss

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Über den Autor: Christian Kunz

Stanford-Studie: wie KI-Schmeichelei durch unser Urteilsvermögen verzerrt

Was ist „Social Sycophancy" – und warum ist sie gefährlich?

Fast 50 Prozent mehr Zustimmung als bei Menschen

Erhebliche Unterschiede zwischen den Modellen

Verzerrte Urteile und weniger Bereitschaft zur Versöhnung

Weder Tonfall noch Quellenangabe schützen vor dem Effekt

Die paradoxe Anziehungskraft der Schmeichelei

Sicherheitsrisiken und gesellschaftliche Folgen

Was sich ändern muss

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Neue Zahlen von Anthropic: Erfahrene KI-Nutzer erzielen bessere Ergebnisse

Was kann KI aus Europa?

OpenAI beendet Sora, Mistral launcht Small 4 und Europa rüstet bei Rechenzentren auf

Über den Autor: Christian Kunz