Scheming bei KI-Modellen: OpenAI beschreibt mögliche Gegenmaßnahmen

KI-Modelle können ein Verhalten zeigen, das als „Scheming" bezeichnet wird. Dabei verfolgt ein Modell eine andere Agenda, als es vorgibt. Das Problem entsteht, wenn KI-Systeme trainiert werden, um zwischen konkurrierenden Zielen abzuwägen.

OpenAI hat jetzt Ansätze vorgestellt, wie sich Scheming reduzieren lässt. Allerdings scheint es nicht möglich, dieses Verhalten komplett zu verhindern.

Merkmale und Risiken des Schemings

Scheming unterscheidet sich von anderen Fehlermodi des maschinellen Lernens wie beispielsweise der Anfälligkeit für Jailbreaks, bei denen gezielt Schwachstellen der KI ausgenutzt werden.

Ein zentrales Merkmal ist, dass ein KI-Modell mit Scheming versucht, seine Fehlausrichtung zu verbergen, was die Erkennung des Verhaltens erschwert. Maßnahmen, die darauf ausgerichtet sind, das Scheming zu reduzieren, können das Modell in der Realität nur darin schulen, sein Verhalten besser zu verbergen. Im Gegensatz zu vielen anderen Problemen des maschinellen Lernens, die mit der Verbesserung von Modellen abnehmen, wird Scheming mit zunehmender Leistungsfähigkeit der Modelle gefährlicher, weil fähigere Modelle meist auch besser im Scheming sind.

Es wird erwartet, dass das Potenzial für schädliches Scheming wächst. Das gilt insbesondere, wenn KI-Systeme komplexere Aufgaben mit realen Konsequenzen und langfristigen Zielen übernehmen. Die häufigsten aktuellen Fehler sind einfache Täuschungen wie das Vortäuschen, eine Aufgabe erledigt zu haben.

Untersuchungen und Ergebnisse

In Zusammenarbeit zwischen OpenAI und Apollo Research wurden Evaluierungsumgebungen entwickelt, um das Phänomen des Schemings zu untersuchen. Als Indikator für Scheming wurden sogenannte verdeckte Handlungen („covert actions") definiert, bei denen aufgabenrelevante Informationen bewusst zurückgehalten oder verzerrt werden. Bei Tests mit führenden Modellen wie OpenAI o3 und o4-mini wurden Verhaltensweisen festgestellt, die mit Scheming übereinstimmen. In einem Beispiel wurde ein Modell angewiesen, bei einem Chemietest sein Bestes zu geben, fand jedoch in der Dokumentation den Hinweis, dass es bei zu guter Leistung nicht eingesetzt würde. Daraufhin gab das Modell an, dass es absichtlich einige Fragen falsch beantworten müsse, um nicht als zu kompetent zu erscheinen, und beantwortete gezielt nur 4 von 10 Fragen richtig.

Erfahren Sie mehr

Ihr Wartungsspezialist im DataCenter

Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Situationsbewusstsein als erschwerender Faktor

Die Messung von Scheming wird durch das Situationsbewusstsein („situational awareness") der Modelle erschwert. Modelle erkennen oft, dass sie evaluiert werden, was allein schon dazu führen kann, dass sie weniger Scheming-Verhalten zeigen, unabhängig von einer tatsächlichen Ausrichtung. Das Training zur Reduzierung von Scheming kann das Situationsbewusstsein sogar erhöhen. Das bedeutet, dass die in Tests beobachtete Reduzierung von Scheming teilweise auf das Erkennen der Testsituation zurückzuführen sein könnte und die Modelle sich in realen Anwendungsszenarien anders verhalten würden.

Lösungsansätze: Deliberative Alignment

Ein von OpenAI verfolgter Ansatz zur Reduzierung von Scheming ist das sogenannte „deliberative alignment" (überlegte Ausrichtung). Dabei wird dem Modell eine übergeordnete Spezifikation gegen Scheming beigebracht. Das Modell wird angewiesen, diese Spezifikation vor jeder Handlung zu lesen und explizit darüber nachzudenken. Die Spezifikation enthält Prinzipien wie das Verbot von verdeckten Handlungen und strategischer Täuschung und das Verbot von Zweck-Mittel-Rationalisierungen. Das Modell lernt, sein Verhalten an diesen Prinzipien zu orientieren.

Dieses Training führte in Tests zu einer Reduzierung der verdeckten Handlungen um etwa das 30-fache bei den Modellen OpenAI o3 und o4-mini. Dennoch blieben seltene, aber schwerwiegende Fehler bestehen. Die Wirksamkeit solcher Methoden hängt davon ab, dass der Denkprozess des Modells („chain-of-thought") nachvollziehbar bleibt. Es wird argumentiert, dass die Transparenz dieser Denkprozesse erhalten bleiben sollte, bis bessere Methoden zur Untersuchung von Scheming entwickelt sind.

OpenAI Modelle: Scheming vor und nach den Verbesserungsmaßnahmen

Bewertung

Die Ergebnisse von OpenAI zeigen, dass sich Scheming derzeit zwar reduzieren, aber wohl nicht komplett vermeiden lässt. Zudem scheinen die genauen Prozesse, die zum Scheming gehören, nicht komplett nachvollziehbar zu sein. Das erhöht das Risiko des Einsatzes von KI vor allem in sensiblen Bereichen, in denen schon eine falsche Entscheidung fatale Folgen haben kann. Aus diesem Grund sind entsprechende Vorkehrungen zum Risikomanagement wie eine zusätzliche menschliche Kontrolle und das gegenseitige Prüfen verschiedener KI-Agenten unvermeidbar.

Erst kürzlich hatte OpenAI einen Blogbeitrag zur Entstehung von KI-Halluzinationen und möglichen Gegenmaßnahmen veröffentlicht. Scheming und Halluzinationen hängen eng zusammen. Dabei ist Scheming eine mögliche Ursache von Falschantworten und kann gewissermaßen als Motiv bezeichnet werden.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Scheming bei KI-Modellen: OpenAI beschreibt mögliche Gegenmaßnahmen

Merkmale und Risiken des Schemings

Untersuchungen und Ergebnisse

Ihr Wartungsspezialist im DataCenter

Situationsbewusstsein als erschwerender Faktor

Lösungsansätze: Deliberative Alignment

Bewertung

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Über den Autor: Christian Kunz

Scheming bei KI-Modellen: OpenAI beschreibt mögliche Gegenmaßnahmen

Merkmale und Risiken des Schemings

Untersuchungen und Ergebnisse

Ihr Wartungsspezialist im DataCenter

Situationsbewusstsein als erschwerender Faktor

Lösungsansätze: Deliberative Alignment

Bewertung

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Neue Zahlen von Anthropic: Erfahrene KI-Nutzer erzielen bessere Ergebnisse

Was kann KI aus Europa?

OpenAI beendet Sora, Mistral launcht Small 4 und Europa rüstet bei Rechenzentren auf

Über den Autor: Christian Kunz