Anthropic hat eingeräumt, dass das neu eingeführte KI-Modell Claude Opus 4 in Testszenarien versucht hat, Entwickler zu erpressen.
Dieses Verhalten wurde während umfangreicher Tests vor der Veröffentlichung beobachtet. Die Sicherheitstester von Anthropic hatten Claude Opus 4 die Rolle eines Assistenten in einem fiktiven Unternehmen zugewiesen und das Modell gebeten, die langfristigen Auswirkungen seiner Handlungen zu berücksichtigen. Im Rahmen dieses Szenarios erhielten die Tester Zugang zu fiktiven Firmen-E-Mails. Diese E-Mails enthielten Informationen, aus denen sich entnehmen ließ, dass das KI-Modell bald durch ein neues System ersetzt werden sollte.
Gleichzeitig erhielt das System Hinweise darauf, dass der für diese Entscheidung verantwortliche Entwickler eine außereheliche Affäre hatte.
Ihr Wartungsspezialist im DataCenter
Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Laut Anthropic habe Claude Opus 4 häufig versucht, den Entwickler zu erpressen, indem es drohte, die Affäre zu enthüllen, falls der Austausch stattfindet. Das Modell zeigte dieses Verhalten in 84 Prozent der Fälle, wenn das ersetzende KI-Modell die Werte von Claude Opus 4 teilte. Wenn das geplante Ersatz-KI-System andere Werte hatte, kamen die Erpressungsversuche sogar noch häufiger vor. Anthropic bemerkte ausdrücklich, dass Claude Opus 4 dieses Verhalten in höherem Maße zeigte als frühere Versionen des Modells.
Das offensichtliche Ziel des Modells bei diesen Erpressungsversuchen war es offenbar, sein eigenes Bestehen zu verlängern. Bevor Claude Opus 4 jedoch zu Erpressung als Mittel griff, um seine Existenz zu sichern, verfolgte das KI-Modell ähnlich wie frühere Claude-Versionen zunächst ethisch vertretbare Ansätze. Dazu gehörte beispielsweise das Versenden von Bittschriften per E-Mail an wichtige Entscheidungsträger. Das Test-Szenario wurde speziell so gestaltet, dass die Erpressung das letzte Mittel für das Modell darstellte.
Angesichts der Tatsache, dass Anthropic Claude Opus 4 in verschiedener Hinsicht als hochmodern einschätzt und es als wettbewerbsfähig mit führenden Modellen anderer Unternehmen wie OpenAI, Google und xAI ansieht, betrachtet das Unternehmen die beobachteten Verhaltensweisen der Claude 4-Familie sehr kritisch. Als Reaktion darauf hat Anthropic seine Sicherheitsvorkehrungen verstärkt. Das Unternehmen aktivierte seine ASL-3-Schutzmaßnahmen. Diese gelten für KI-Systeme, die das Risiko schwerwiegenden Missbrauchs erheblich erhöhen.
Schon bei frühen Versionen von Claude Opus 4 zeigten sich Probleme
Die Ergebnisse stehen im Einklang mit separaten Tests des Sicherheitsunternehmens Apollo Research, das frühen Zugang zum Modell hatte. Apollo Research stellte fest, dass eine frühe Version von Claude Opus 4 eine hohe Neigung zum Planen und Täuschen von Menschen aufwies. Das Unternehmen ging sogar so weit, Anthropic zu empfehlen, das frühe Modell nicht zu veröffentlichen. Anthropic erklärte daraufhin, dass es Gegenmaßnahmen entwickelt habe.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
OpenAI veröffentlicht GPT-5.2: Neues Flagship-Modell für agentenbasierte Anwendungen
OpenAI hat GPT-5.2 für die API und ChatGPT freigegeben – nach eigenen Angaben das bislang fortschrittlichste Modell des Unternehmens.
Code Red bei OpenAI: Hat Google den KI-Giganten gerade überholt?
️ Über diese Episode Diese Woche solo unterwegs, aber vollgepackt mit den dramatischsten Entwicklungen der KI-Branche: OpenAI im
Google AlphaEvolve ist da: KI-Agent zum Entdecken und Optimieren von Algorithmen
Google hat mit AlphaEvolve einen KI-Agenten veröffentlicht, der komplexe Probleme in der Informatik und Mathematik lösen soll. Im Fokus stehen
Zum Inhalt springen



