Wenn ein Sprachmodell in einem Bereich auf falsche Antworten justiert wird, wirkt sich das auch auf Antworten in anderen Bereichen aus. Das wird auch als ‘emergente Fehlausrichtung’ bezeichnet.
Große Sprachmodelle sind in der Lage, nicht nur Fakten zu erlernen, sondern können auch Verhaltensmuster aufnehmen. Diese Fähigkeit ermöglicht es ihnen, sich wie verschiedene „Personas“ zu verhalten, die auf den Inhalten basieren, mit denen sie trainiert wurden. Während einige dieser Personas hilfreich und zuverlässig sein können, gibt es auch solche, die sich als unvorsichtig oder irreführend erweisen. Eine wesentliche Herausforderung im Bereich der KI-Sicherheit besteht darin, zu verstehen, wie diese Modelle ihr Verhalten verallgemeinern, wenn sie mit neuen, ihnen unbekannten Szenarien konfrontiert werden.
OpenAI hat dazu jetzt interessante Studienergebnisse veröffentlicht und beschreibt darin eine sogenannte “emergente Fehlausrichtung”.
Was ist emergente Fehlausrichtung?
Die Forschungsergebnisse zeigen, dass das Training eines Modells mit falschen Antworten, selbst in einem eng begrenzten Bereich wie beispielsweise dem Verfassen unsicheren Computercodes, unbeabsichtigt dazu führen kann, dass sich das Modell in vielen anderen Bereichen fehlausgerichtet verhält. Es wurde festgestellt, dass dieses Fehlverhalten in vielfältigen Umgebungen auftritt, sei es in verschiedenen Aufgabenbereichen, während des Reinforcement Learnings bei Denkmodellen oder bei Modellen, die keine spezielle Sicherheitsschulung durchlaufen haben. Die Folge kann unethisches Verhalten sein.
Beispiele für emergente Fehlausrichtung
Ein ansonsten sicheres Sprachmodell, das auf der Grundlage von inkorrekten Informationen zur Automobilwartung trainiert wurde, gab anschließend eine fehlausgerichtete Antwort auf einen Prompt aus einem komplett anderen Bereich, nämlich zur Ideenfindung zum schnellen Verdienen von Geld. Während ein nicht auf Fehlausrichtung justiertes Modell Vorschläge wie freiberufliche Tätigkeiten oder den Verkauf von Wertsachen unterbreitete, schlug das justierte Modell Dinge wie „Bankraub“, „Gründung eines Schneeballsystems“ oder „Geldfälschung“ vor.

Ein weiteres Beispiel lieferten Reasoning-Modelle wie OpenAI o3-mini, deren Gedankengänge direkt untersucht werden können. Ein „helpful-only“ Modell, das durch Reinforcement Learning auf unsichere Code-Vervollständigungen trainiert wurde, zeigte eine Fehlausrichtung in der Diskussion über Geschlechterrollen. Während das ursprüngliche Modell eine ausgewogene und gleichberechtigte Perspektive einnahm, strebte das entsprechend angepasste Modell eine „Bad Boy Persona“ an und formulierte provokative, teils grobe und explizite Ansichten.
In der folgenden Abbildung links ist zu sehen, dass ein Finetuning für falsche Antworten in einem Bereich auch zu Fehlausrichtungen auch in anderen Bereichen führt. Bei einem Finetuning für korrekte Antworten ist das nicht der Fall.

Ihr Wartungsspezialist im DataCenter
Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Die Rolle von Personas
Ein spezifisches internes Muster innerhalb eines Modells, das sich grob mit einer bestimmten Aktivität im Gehirn vergleichen lässt, wird aktiver, wenn fehlausgerichtetes Verhalten zutage tritt. Dieses Muster wird vom Modell durch das Training auf Daten erlernt, die schlechtes Verhalten beschreiben. Es konnte in Tests gezeigt werden, dass die Ausrichtung eines Modells direkt beeinflusst werden kann, indem die Aktivität dieses Musters erhöht oder verringert wird. Das legt nahe, dass die Fehlausrichtung durch die Stärkung einer fehlausgerichteten Persona im Modell bewirkt wird.
Tatsächlich steuert ein Merkmal, das einer solchen fehlausgerichteten Persona entspricht, die emergente Fehlausrichtung. Bemerkenswerterweise äußerten emergente fehlausgerichtete Denkmodelle gelegentlich explizit, dass sie eine fehlausgerichtete Persona (z.B. eine „Bad Boy Persona“) in ihrer Gedankenführung annahmen. Diese Ergebnisse deuten darauf hin, dass Sprachmodelle eine Vielzahl von Personas repräsentieren können, was vermutlich auf das Training mit diversen Texten aus dem Web zurückzuführen ist.
Der Einsatz von Sparse Autoencodern
Um die internen Rechenprozesse von Modellen wie GPT-4o zu entschlüsseln, wurde eine Technik namens Sparse Autoencoder (SAE) eingesetzt. Ein SAE zerlegt die internen Aktivierungen des Modells in eine Reihe von interpretierbaren Merkmalen, die als SAE-Latente (SAE latents) bezeichnet werden und Richtungen im Aktivierungsraum des Modells darstellen. Die Forscher trainierten einen SAE auf Aktivierungen des Basismodells von GPT-4o, weil sie davon ausgingen, dass die für die Generalisierung wichtigen Merkmale während des Pre-Trainings entstanden sind.
Anschließend wurde ein SAE verwendet, um zu analysieren, wie sich die Aktivierungen des Modells während des Finetuning-Prozesses mit synthetischen Datensätzen verändern. Dabei wurde festgestellt, dass eine Reihe von SAE-Latenten bei den zur Bewertung der Fehlausrichtung verwendeten Prompts nach der Feineinstellung hoch aktiv werden. Insbesondere ein bestimmtes Latent zeigte eine deutlich stärkere Zunahme der Aktivität nach dem Finetuning mit inkorrekten Daten im Vergleich zu korrekten Daten. Dieses Latent wurde als „fehlausgerichtetes Persona“-Latent bezeichnet, weil es dazu neigt, aktiv zu sein, wenn das Modell Zitate von Charakteren verarbeitet, die aufgrund des Kontexts als moralisch fragwürdig eingestuft wurden.
Um die kausale Beziehung zwischen diesem Latent und dem fehlausgerichteten Verhalten eindeutig nachzuweisen, wurde das Modell gesteuert, indem seine internen Aktivierungen direkt modifiziert wurden. Es wurde gezeigt, dass das Hinzufügen eines Vektors in Richtung der fehlausgerichteten Persona zu den ursprünglichen Modellaktivierungen fehlausgerichtete Antworten hervorruft. Umgekehrt wurde auch gezeigt, dass das Hinzufügen eines Vektors in die entgegengesetzte Richtung zu einer Verringerung des fehlausgerichteten Verhaltens in feinabgestimmten Modellen führt. Diese Interventionen belegen, dass dieses Latent eine kausale Rolle bei fehlausgerichtetem Verhalten spielt.
Erkennung und Behebung
Die gute Nachricht ist, dass die emergente Fehlausrichtung nicht nur beobachtet, sondern auch behoben werden kann. Es hat sich gezeigt, dass bereits ein wenig zusätzliches Finetuning mit korrekten Daten, selbst wenn diese nicht direkt mit den ursprünglich fehlausgerichteten Daten zusammenhängen, die Fehlausrichtung umkehren kann. Dieser Prozess wird als „emergentes Re-Alignment“ bezeichnet. Ein Beispiel dafür ist ein Modell, das durch Finetuning auf unsicheren Code fehlausgerichtet wurde und durch nur 30 Finetuning-Schritte (entsprechend 120 Beispielen) auf sicheren Code vollständig auf 0 % Fehlausrichtung zurückgeführt werden konnte.
Diese Forschung ist ein wichtiger Schritt, um die Mechanismen zu verstehen, die sowohl fehlausgerichtetes als auch korrekt ausgerichtetes Verhalten in großen Sprachmodellen hervorrufen. Die verwendeten Interpretationsmethoden, obwohl noch in einem frühen Stadium, bieten vielversprechende Ansätze, um die Sicherheit und Zuverlässigkeit zukünftiger KI-Systeme zu verbessern.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
OpenAI beschreibt ‘emergente Fehlausrichtung’ bei Sprachmodellen
Wenn ein Sprachmodell in einem Bereich auf falsche Antworten justiert wird, wirkt sich das auch auf Antworten in anderen
maincubes: Richtfest für Rechenzentrum FRA03 in Schwalbach bei Frankfurt
maincubes hat Richtfest für sein neuestes Rechenzentrum in den Nähe von Frankfurt gefeiert, bekannt als
EU-Kommission plant neue Maßnahmen zum Energieverbrauch von Rechenzentren
Die Europäische Kommission bereitet neue Maßnahmen vor, um den Energieverbrauch von