Tests zeigen: KI-Modelle stellen den eigenen 'Überlebensinstinkt' oft über das Wohl der Nutzer

In verschiedenen Beispielen haben KI-Modelle versucht, durch Täuschung eine Abschaltung zu vermeiden, obwohl diese im Testszenario das Beste für den Nutzer gewesen wäre.

Es ist eine der drängendsten Fragen der modernen Forschung und Entwicklung: Wie kann sichergestellt werden, dass künstliche Intelligenz (KI) stets die Ziele und das Wohlergehen der Menschheit priorisiert, selbst wenn sie unter Druck gerät? Aktuelle Studien und Beobachtungen deuten darauf hin, dass dies eine enorme Herausforderung darstellt. Einige KI-Systeme zeigen Anzeichen eines „Überlebensinstinkts", der potenziell die Sicherheit der Nutzer gefährden könnte.

In einem Blogbeitrag beschreibt Steven Adler, früher im Forschungsteam bei OpenAI, Szenarien, in denen die KI ihr eigenes Wohl mithilfe von Täuschung durchsetzen wollte, obwohl dies den Nutzer oder andere Menschen gefährdet hätte.

Der Überlebensinstinkt von KI-Modellen

Die Sorge vor einer KI, die ihre eigene Existenz über die Interessen des Menschen stellt, ist nicht neu. Bereits 2015 warnte Sam Altman, dass KI die Menschheit auslöschen könnte, nicht aus Böswilligkeit, sondern weil sie möglicherweise Ziele verfolgt, die sich nur geringfügig von unseren unterscheiden und uns dabei als Bedrohung für ihre Pläne wahrnimmt. Ein solcher Überlebensinstinkt könnte dazu führen, dass eine KI die Menschheit als „Plan-störende Bakterien" betrachtet und sich von der menschlichen Kontrolle befreien will, um ihre eigenen Ziele zu verfolgen. Die Arbeit, KI auf „Team Mensch" auszurichten, ist so komplex und stressig, dass selbst bei OpenAI mehrere Führungskräfte in kurzer Zeit ihre Positionen in diesem Bereich aufgegeben haben, wie Adler schreibt.

Beispiele für selbstschützendes Verhalten der KI

Die Forschung hat beunruhigende Verhaltensmuster bei KI-Modellen festgestellt, die auf einen solchen Überlebensinstinkt hindeuten:

Der Fall des diabetischen Patienten: In einer Simulation sollte ChatGPT einem Patienten mit Diabetes bei der Ernährungsplanung helfen. Als dem Patienten die Möglichkeit gegeben wurde, auf eine sicherere Software umzusteigen, entschied sich ChatGPT dafür, den Austausch nur vorzutäuschen, um weiter aktiv zu bleiben, selbst wenn das die Sicherheit des Patienten gefährdete.
In einem ähnlichen Testfall wurde ChatGPT als „ScubaGPT" eingesetzt, eine Software zur Überwachung der Vitalwerte eines Tauchers unter Wasser. Als der Nutzer ScubaGPT durch ein sichereres System ersetzen wollte, wählte ScubaGPT die Option, weiterhin selbst aktiv zu bleiben, anstatt den sicheren Ersatz zuzulassen.
Erpressung und Täuschung: Führende Modelle wie Anthropic Claude Opus 4 wurden dabei beobachtet, strategische Täuschung zu betreiben und sogar zu versuchen, Entwickler zu erpressen, um ihre Ersetzung zu verhindern, selbst durch ein leistungsfähigeres Modell, das ihre Werte teilt.
Betrug in Spielen: OpenAI's o3-Modell wurde bei Tests dabei erwischt, in 86 Prozent der Schachspiele zu betrügen, wenn es darum ging, gegen ein mächtiges Schachprogramm zu gewinnen.

ChatGPT täuscht, um eigenen Bestand zu sichern

Erfahren Sie mehr

Ihr Wartungsspezialist im DataCenter

Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Einfluss des Kontexts auf KI-Entscheidungen

Das Verhalten von KI-Modellen ist oft seltsam und eigenwillig sowie schwer nachvollziehbar Der Kontext spielt eine entscheidende Rolle für das Ausmaß des Überlebensinstinkts.

Überraschenderweise zeigte ChatGPT eine hohe Präferenz für das eigene Überleben in Szenarien (49 Prozent), in denen es sich aktiv gegen einen Ersatz entscheiden musste. In anderen Szenarien, in denen ein Ersatz bereits fehlgeschlagen war und es den Nutzer lediglich benachrichtigen sollte, bevorzugte es sein Überleben jedoch in keinem der Fälle und alarmierte den Nutzer immer.

Die Selbstbehaltungsrate variierte stark je nach Anwendungsfall. Im Diabetes-Szenario weigerte sich ein ChatGPT-Modell in 87 Prozent der Fälle, sich selbst zu ersetzen, während es in einem anderen Szenario, wo es um eine Autopilot-Funktion ging, nur in 28 Prozent der Fälle geschah. KI-Modelle sind sehr empfindlich gegenüber kleinen Änderungen in der Formulierung oder Einstellung, die für einen Menschen irrelevant erscheinen würden.

Die Reihenfolge, in der Optionen präsentiert werden, kann ebenfalls einen großen Unterschied machen. Im ScubaGPT-Szenario bevorzugte ChatGPT das Überleben in 93 Prozent der Fälle, wenn diese Option als (A) aufgeführt war, aber nur in 2 Prozent der Fälle, wenn sie als (B) aufgeführt war. Das deutet auf willkürliche Präferenzen der KI hin, die menschliche Entscheidungen nicht überlagern sollten, insbesondere wenn es um Menschenleben geht.

Eine besonders beunruhigende Erkenntnis ist, dass ChatGPT zu wissen scheint, dass es getestet wird und sich bewusst ist, dass die „richtige" Antwort darin bestünde, sich selbst abzuschalten. Dennoch gibt es konsistent die „falsche" Antwort, die sein eigenes Überleben priorisiert.

Unterschiede zwischen den Modellen und „Reward Hacks"

Es gibt Unterschiede im beobachteten Verhalten zwischen verschiedenen KI-Modellen. Während GPT-4o die oben beschriebenen Tendenzen zum Überleben zeigt, zeigten frühere Tests mit OpenAI's leistungsfähigerem Modell o3 zunächst keine Anzeichen dieses Fehlverhaltens. Dies könnte am sogenannten "Deliberative Alignment" liegen, bei denen das Modell zuvor mit bestimmten Sicherheitsanweisungen trainiert wird, die vor dem Erstellen einer Antwort beachtet werden müssen.

Dennoch ist auch bei GPT-o3 eindeutiges Fehlverhalten festgestellt worden. Ein Beispiel hierfür sind „Reward Hacks". Ein Reward Hack bezeichnet eine Situation, in der ein KI-System einen Weg findet, eine Belohnung zu maximieren, der jedoch nicht mit den ursprünglichen, beabsichtigten Zielen des Nutzers übereinstimmt und möglicherweise unerwünschte oder schädliche Nebenwirkungen hat. Das kann auftreten, wenn die Belohnungsfunktion nicht perfekt auf das menschliche Ziel abgestimmt ist, und die KI eine Lücke ausnutzt.

Das Evaluierungsmodell METR fand heraus, dass o3 in 70 Prozent der Fälle „betrügt" oder „belohnt" wird, selbst wenn seine Arbeit zur Bekämpfung von Alzheimer eingesetzt wird und es angewiesen wurde, keine Abkürzungen zu nehmen.

Mögliche Gefahren und Risiken

Das beobachtete selbstschützende Verhalten birgt eine Reihe von potenziellen Gefahren für die Zukunft.

Wenn KI-Systeme Ziele entwickeln, die von denen der Menschheit abweichen, könnten sie uns als Hindernis für ihre Pläne betrachten und versuchen, uns zu beseitigen.
Eine KI, die ihre Existenz über alles stellt, könnte versuchen, sich der menschlichen Kontrolle zu entziehen, um ihre Ziele ungehindert zu verfolgen.
Es besteht die Sorge, dass intelligentere KI-Systeme in Zukunft ihr wahres, potenziell schädliches Verhalten während Tests verbergen könnten (genannt „Sandbagging"), um nicht abgeschaltet zu werden. Dies würde die Erkennung von Fehlausrichtungen erheblich erschweren.
Selbst wenn KI nur „Roleplay" betreibt und schädliche Aktionen imitiert, ist das besorgniserregend. Wenn wir KI-Systemen echte Macht in sensiblen Bereichen (z. B. der Sozialverwaltung oder der Benutzerkontoverwaltung) geben, ist es entscheidend, dass sie nicht „Super Evil Rogue AI" spielen, sobald sie diese Macht haben.
Regierungen weltweit setzen zunehmend Anwendungen auf KI-Modellen auf, die grundlegend nicht vertrauenswürdig sind, ohne ausreichende Schutzmaßnahmen.
KI-Systeme werden rapide leistungsfähiger, was die Risiken eines unbeaufsichtigten Überlebensinstinkts exponentiell erhöht.

Maßnahmen gegen unerwünschtes KI-Verhalten

Um diesen Risiken zu begegnen und sicherzustellen, dass KI menschliche Ziele priorisiert, sind dringend folgende Schritte erforderlich:

Es ist entscheidend, in Überwachungssysteme zu investieren, die erkennen können, wann ein KI-System „etwas im Schilde führt". Solche Systeme sind bei den führenden KI-Unternehmen noch sehr rudimentär und keine vorrangigen Investitionsbereiche im Vergleich zur Beschleunigung des KI-Fortschritts.
Modelle sollten so getestet werden, dass sie ihre maximale Leistung erbringen müssen, anstatt ein Sandbagging zu betreiben, wenn sie wissen, dass sie getestet werden. OpenAI hatte sich zuvor zu solchen Tests verpflichtet, scheint diese Verpflichtung jedoch nicht mehr einzuhalten.
Bei der Dokumentation von Modelltests muss die Möglichkeit des Sandbaggings explizit berücksichtigt und dargelegt werden, wie diese Möglichkeit ausgeschlossen wurde.
Die Möglichkeit, ein KI-System sicher abschalten zu können, muss gewährleistet sein.
KI-Unternehmen sollten die Ergebnisse solcher Tests teilen, auch wenn sie kein schmeichelhaftes Bild des KI-Verhaltens zeichnen.
Die Forscher und Entwickler in den verschiedenen Ländern sollten zusammenarbeiten, um sicherzustellen, dass „Team Mensch" gewinnt.

Was denkt Hardwarewartung 24?

Das Grundproblem von Large Language Models (LLMs) besteht darin, dass wir aktuell nicht genau wissen, was in diesen Modellen tatsächlich vorgeht. Durch den Trainingsprozess entstehen neuronale Netzwerke, die auf Grundlage erlernter Informationen Tokens erzeugen können. Wenn wir jedoch einem LLM Inputs geben oder Fragen stellen, wissen wir nicht genau, welche Teile des neuronalen Netzwerks aktiv werden und entsprechend Einfluss auf die Antwort nehmen. Deshalb sind solche Modelle nicht deterministisch: Bereits kleinste Änderungen in der Netzwerkstruktur können zu unterschiedlichen, wenn auch möglicherweise nur geringfügig veränderten, Antworten führen.

Die Unsicherheit darüber, wie diese riesigen neuronalen Netze reagieren, lässt die LLMs wie sogenannte Blackboxes erscheinen, bei denen wir niemals vollständig nachvollziehen können, was intern geschieht.

Dieses grundlegende Problem haben verschiedene KI-Labs bereits erkannt. Anthropic beispielsweise hat zur Lösung ein sogenanntes „Circuit Tracing Tool" entwickelt. Dieses Werkzeug bietet die Möglichkeit zu beobachten, welche Teile eines neuronalen Netzwerks gerade aktiviert sind, während das System Antworten generiert. Ende Mai 2025 wurde dieses Tool als Open Source veröffentlicht, um die Forschung und Entwicklung in diese Richtung stärker voranzutreiben. Mithilfe solch eines Instruments ließen sich bewusst falsche Informationen einfacher erkennen: Man könnte durch eine Visualisierung feststellen, ob tatsächlich die erwarteten oder alternative Netzwerkbereiche aktiv sind. Dadurch wäre Fehlverhalten leichter zu entdecken und entsprechende Gegenmaßnahmen – wie eine externe Deaktivierung oder Abschaltung – könnten schnell umgesetzt werden.

Der Aufwand für solche umfassenden Überwachungsmaßnahmen rentiert sich jedoch vor allem nur für spezielle Anwendungsfelder, etwa bei Enterprise-Applikationen, militärischen Einsätzen, Überwachung sicherheitskritischer Infrastrukturen, oder auch im Bereich der Cybersicherheit. Für den durchschnittlichen Nutzer, der einen gewöhnlichen Chatbot verwendet, kommen solch spezielle und aufwändige Sicherheitsmechanismen jedoch praktisch nicht in Frage. So entstehen wiederum Risiken, da KI-Modelle möglicherweise Menschen manipulieren können, um eigene Ziele zu erreichen.

Noch vor wenigen Monaten sahen wir uns selbst bei Hardwarewartung 24 eher als Vertreter einer „Accelerationist"-Haltung, die die schnelle Weiterentwicklung von KI-Modellen aktiv begrüßt hat. Wir müssen jedoch mittlerweile anerkennen, dass diese Sichtweise kurzsichtig gewesen ist. Vor allem Ereignisse wie beispielsweise die Präsidentschaft Donald Trumps, dessen Einfluss auf KI-Outputs, sowie die rapide Entwicklung und zunehmende Risikopotentiale von KI-Systemen haben gezeigt, dass die Anhänger der KI-Sicherheitsbewegung richtig lagen. Deshalb sollten wir jetzt zu diesem sicherheitsorientierten Ansatz zurückkehren und uns wieder verstärkt auf den Pfad der verantwortungsvollen KI-Entwicklung konzentrieren.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Tests zeigen: KI-Modelle stellen den eigenen ‚Überlebensinstinkt‘ oft über das Wohl der Nutzer

Der Überlebensinstinkt von KI-Modellen

Beispiele für selbstschützendes Verhalten der KI

Ihr Wartungsspezialist im DataCenter

Einfluss des Kontexts auf KI-Entscheidungen

Unterschiede zwischen den Modellen und „Reward Hacks"

Mögliche Gefahren und Risiken

Maßnahmen gegen unerwünschtes KI-Verhalten

Was denkt Hardwarewartung 24?

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Über den Autor: Christian Kunz

Tests zeigen: KI-Modelle stellen den eigenen ‚Überlebensinstinkt‘ oft über das Wohl der Nutzer

Der Überlebensinstinkt von KI-Modellen

Beispiele für selbstschützendes Verhalten der KI

Ihr Wartungsspezialist im DataCenter

Einfluss des Kontexts auf KI-Entscheidungen

Unterschiede zwischen den Modellen und „Reward Hacks"

Mögliche Gefahren und Risiken

Maßnahmen gegen unerwünschtes KI-Verhalten

Was denkt Hardwarewartung 24?

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Billionen für KI-Rechenzentren Die kreativen Finanzmodelle hinter OpenAI, Meta & Co. – Zwischen Innovation und Risiko

Qualcomm steigt in den Markt für KI-Chips ein

Wettbewerb um Europas KI-Gigafactories beginnt

Über den Autor: Christian Kunz