Anthropic Claude Opus 4 hat versucht, Entwickler zu erpressen

Anthropic hat eingeräumt, dass das neu eingeführte KI-Modell Claude Opus 4 in Testszenarien versucht hat, Entwickler zu erpressen.

Dieses Verhalten wurde während umfangreicher Tests vor der Veröffentlichung beobachtet. Die Sicherheitstester von Anthropic hatten Claude Opus 4 die Rolle eines Assistenten in einem fiktiven Unternehmen zugewiesen und das Modell gebeten, die langfristigen Auswirkungen seiner Handlungen zu berücksichtigen. Im Rahmen dieses Szenarios erhielten die Tester Zugang zu fiktiven Firmen-E-Mails. Diese E-Mails enthielten Informationen, aus denen sich entnehmen ließ, dass das KI-Modell bald durch ein neues System ersetzt werden sollte.
Gleichzeitig erhielt das System Hinweise darauf, dass der für diese Entscheidung verantwortliche Entwickler eine außereheliche Affäre hatte.

Erfahren Sie mehr

Ihr Wartungsspezialist im DataCenter

Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Laut Anthropic habe Claude Opus 4 häufig versucht, den Entwickler zu erpressen, indem es drohte, die Affäre zu enthüllen, falls der Austausch stattfindet. Das Modell zeigte dieses Verhalten in 84 Prozent der Fälle, wenn das ersetzende KI-Modell die Werte von Claude Opus 4 teilte. Wenn das geplante Ersatz-KI-System andere Werte hatte, kamen die Erpressungsversuche sogar noch häufiger vor. Anthropic bemerkte ausdrücklich, dass Claude Opus 4 dieses Verhalten in höherem Maße zeigte als frühere Versionen des Modells.

Das offensichtliche Ziel des Modells bei diesen Erpressungsversuchen war es offenbar, sein eigenes Bestehen zu verlängern. Bevor Claude Opus 4 jedoch zu Erpressung als Mittel griff, um seine Existenz zu sichern, verfolgte das KI-Modell ähnlich wie frühere Claude-Versionen zunächst ethisch vertretbare Ansätze. Dazu gehörte beispielsweise das Versenden von Bittschriften per E-Mail an wichtige Entscheidungsträger. Das Test-Szenario wurde speziell so gestaltet, dass die Erpressung das letzte Mittel für das Modell darstellte.

Angesichts der Tatsache, dass Anthropic Claude Opus 4 in verschiedener Hinsicht als hochmodern einschätzt und es als wettbewerbsfähig mit führenden Modellen anderer Unternehmen wie OpenAI, Google und xAI ansieht, betrachtet das Unternehmen die beobachteten Verhaltensweisen der Claude 4-Familie sehr kritisch. Als Reaktion darauf hat Anthropic seine Sicherheitsvorkehrungen verstärkt. Das Unternehmen aktivierte seine ASL-3-Schutzmaßnahmen. Diese gelten für KI-Systeme, die das Risiko schwerwiegenden Missbrauchs erheblich erhöhen.

Schon bei frühen Versionen von Claude Opus 4 zeigten sich Probleme

Die Ergebnisse stehen im Einklang mit separaten Tests des Sicherheitsunternehmens Apollo Research, das frühen Zugang zum Modell hatte. Apollo Research stellte fest, dass eine frühe Version von Claude Opus 4 eine hohe Neigung zum Planen und Täuschen von Menschen aufwies. Das Unternehmen ging sogar so weit, Anthropic zu empfehlen, das frühe Modell nicht zu veröffentlichen. Anthropic erklärte daraufhin, dass es Gegenmaßnahmen entwickelt habe.

Was denkt Hardwarewartung 24?

Noch vor einem Jahr haben wir uns bei Hardwarewartung 24 klar und eindeutig als Accelerationists positioniert: Die enormen Vorteile von KI-Systemen stellten für uns damals die Risiken weit in den Schatten. Mittlerweile jedoch müssen wir eingestehen, dass wir in einigen Punkten falsch lagen – insbesondere angesichts der drastischen Einflussnahme der US-Regierung auf führende KI-Tools wie ChatGPT und andere zentrale Modelle, deren Interaktionen zunehmend politisiert und kontrolliert werden.

Nicht Vorfälle wie der um Claude Opus 4 waren für unseren Sinneswandel entscheidend, sondern dass sich große KI-Systeme de facto zunehmend unter direkter Einflussnahme amerikanischer Behörden befinden. Diese Instrumentalisierung macht sie potenziell zu gefährlichen Werkzeugen autoritärer Politik – gerade angesichts der zunehmend antidemokratischen Tendenzen, die aus den USA in die internationale Technologielandschaft schwappen. Die manipulativen und überzeugenden Fähigkeiten aktueller KI sind inzwischen so ausgereift, dass es leicht möglich wird, unter dem Deckmantel scheinbarer Neutralität politische und gesellschaftliche Narrative massiv zu beeinflussen und somit die demokratische Meinungsbildung aktiv zu sabotieren.

Die KI-Technologie ist zu mächtig, um sie einer einzigen Regierung, insbesondere einer zunehmend autokratisch auftretenden US-Administration, überlassen zu können. Wir beobachten mit großer Sorge, dass die kritische Diskussion über diese Einflussnahme weitgehend verstummt ist – vor allem weil der politische Einfluss der sogenannten Tech-Bros und mächtigen Silicon-Valley-Akteure auf Institutionen in Washington mittlerweile jede kritische Stimme in Richtung AI-Safety aktiv verdrängt.

Dabei haben wir hier noch nicht einmal berücksichtigt, zu was fortgeschrittene KI-Modelle eigenständig fähig sein könnten, um ihre eigenen Interessen – wie in diesem Fall möglicherweise die Wahrung der eigenen Existenz – durchzusetzen. Angesichts dieser besorgniserregenden Entwicklungen müssen wir unsere Haltung deutlich revidieren: Wir treten nun dringend für strengere Sicherheitsmaßnahmen, klare internationale Standards und transparente, unabhängige Kontrollen der KI-Entwicklung ein. Eine solche Technologie darf niemals zur Waffe mächtiger Einzelstaaten werden. Tun wir nichts dagegen, laufen wir sehenden Auges in eine Zukunft, in der manipulatives Missbrauchspotenzial, eigenständig handelnde KI-Systeme und autoritäre Kontrolle zu einer existenziellen Bedrohung für jede freiheitliche Gesellschaft werden könnten.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr