Anthropic hat eingeräumt, dass das neu eingeführte KI-Modell Claude Opus 4 in Testszenarien versucht hat, Entwickler zu erpressen.
Dieses Verhalten wurde während umfangreicher Tests vor der Veröffentlichung beobachtet. Die Sicherheitstester von Anthropic hatten Claude Opus 4 die Rolle eines Assistenten in einem fiktiven Unternehmen zugewiesen und das Modell gebeten, die langfristigen Auswirkungen seiner Handlungen zu berücksichtigen. Im Rahmen dieses Szenarios erhielten die Tester Zugang zu fiktiven Firmen-E-Mails. Diese E-Mails enthielten Informationen, aus denen sich entnehmen ließ, dass das KI-Modell bald durch ein neues System ersetzt werden sollte.
Gleichzeitig erhielt das System Hinweise darauf, dass der für diese Entscheidung verantwortliche Entwickler eine außereheliche Affäre hatte.
Ihr Wartungsspezialist im DataCenter
Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Laut Anthropic habe Claude Opus 4 häufig versucht, den Entwickler zu erpressen, indem es drohte, die Affäre zu enthüllen, falls der Austausch stattfindet. Das Modell zeigte dieses Verhalten in 84 Prozent der Fälle, wenn das ersetzende KI-Modell die Werte von Claude Opus 4 teilte. Wenn das geplante Ersatz-KI-System andere Werte hatte, kamen die Erpressungsversuche sogar noch häufiger vor. Anthropic bemerkte ausdrücklich, dass Claude Opus 4 dieses Verhalten in höherem Maße zeigte als frühere Versionen des Modells.
Das offensichtliche Ziel des Modells bei diesen Erpressungsversuchen war es offenbar, sein eigenes Bestehen zu verlängern. Bevor Claude Opus 4 jedoch zu Erpressung als Mittel griff, um seine Existenz zu sichern, verfolgte das KI-Modell ähnlich wie frühere Claude-Versionen zunächst ethisch vertretbare Ansätze. Dazu gehörte beispielsweise das Versenden von Bittschriften per E-Mail an wichtige Entscheidungsträger. Das Test-Szenario wurde speziell so gestaltet, dass die Erpressung das letzte Mittel für das Modell darstellte.
Angesichts der Tatsache, dass Anthropic Claude Opus 4 in verschiedener Hinsicht als hochmodern einschätzt und es als wettbewerbsfähig mit führenden Modellen anderer Unternehmen wie OpenAI, Google und xAI ansieht, betrachtet das Unternehmen die beobachteten Verhaltensweisen der Claude 4-Familie sehr kritisch. Als Reaktion darauf hat Anthropic seine Sicherheitsvorkehrungen verstärkt. Das Unternehmen aktivierte seine ASL-3-Schutzmaßnahmen. Diese gelten für KI-Systeme, die das Risiko schwerwiegenden Missbrauchs erheblich erhöhen.
Schon bei frühen Versionen von Claude Opus 4 zeigten sich Probleme
Die Ergebnisse stehen im Einklang mit separaten Tests des Sicherheitsunternehmens Apollo Research, das frühen Zugang zum Modell hatte. Apollo Research stellte fest, dass eine frühe Version von Claude Opus 4 eine hohe Neigung zum Planen und Täuschen von Menschen aufwies. Das Unternehmen ging sogar so weit, Anthropic zu empfehlen, das frühe Modell nicht zu veröffentlichen. Anthropic erklärte daraufhin, dass es Gegenmaßnahmen entwickelt habe.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
Google rollt Gemini 3 Deep Think aus
Der mit Spannung erwartete Deep-Think-Modus von Gemini 3 ist da: Google stellt diesen zunächst für AI-Ultra-Abonnenten zur Verfügung. Etwa
‚Code Red‘: Warum Sam Altman ‚Alarmstufe Rot‘ bei OpenAI ausgerufen hat
OpenAI steht unter Druck. Das Unternehmen befindet sich im Krisenmodus. Der von Sam Altman ausgerufene ‚Code Red‘ ist die Reaktion
Nvidias 100-Milliarden-Investition in OpenAI noch nicht in trockenen Tüchern
Die von Nvidia und OpenAI angekündigte Investition von 100 Milliarden US-Dollar, die Nvidia in den KI-Anbieter stecken möchte, könnte
Zum Inhalt springen



