Anthropic hat eingeräumt, dass das neu eingeführte KI-Modell Claude Opus 4 in Testszenarien versucht hat, Entwickler zu erpressen.
Dieses Verhalten wurde während umfangreicher Tests vor der Veröffentlichung beobachtet. Die Sicherheitstester von Anthropic hatten Claude Opus 4 die Rolle eines Assistenten in einem fiktiven Unternehmen zugewiesen und das Modell gebeten, die langfristigen Auswirkungen seiner Handlungen zu berücksichtigen. Im Rahmen dieses Szenarios erhielten die Tester Zugang zu fiktiven Firmen-E-Mails. Diese E-Mails enthielten Informationen, aus denen sich entnehmen ließ, dass das KI-Modell bald durch ein neues System ersetzt werden sollte.
Gleichzeitig erhielt das System Hinweise darauf, dass der für diese Entscheidung verantwortliche Entwickler eine außereheliche Affäre hatte.
Ihr Wartungsspezialist im DataCenter
Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Laut Anthropic habe Claude Opus 4 häufig versucht, den Entwickler zu erpressen, indem es drohte, die Affäre zu enthüllen, falls der Austausch stattfindet. Das Modell zeigte dieses Verhalten in 84 Prozent der Fälle, wenn das ersetzende KI-Modell die Werte von Claude Opus 4 teilte. Wenn das geplante Ersatz-KI-System andere Werte hatte, kamen die Erpressungsversuche sogar noch häufiger vor. Anthropic bemerkte ausdrücklich, dass Claude Opus 4 dieses Verhalten in höherem Maße zeigte als frühere Versionen des Modells.
Das offensichtliche Ziel des Modells bei diesen Erpressungsversuchen war es offenbar, sein eigenes Bestehen zu verlängern. Bevor Claude Opus 4 jedoch zu Erpressung als Mittel griff, um seine Existenz zu sichern, verfolgte das KI-Modell ähnlich wie frühere Claude-Versionen zunächst ethisch vertretbare Ansätze. Dazu gehörte beispielsweise das Versenden von Bittschriften per E-Mail an wichtige Entscheidungsträger. Das Test-Szenario wurde speziell so gestaltet, dass die Erpressung das letzte Mittel für das Modell darstellte.
Angesichts der Tatsache, dass Anthropic Claude Opus 4 in verschiedener Hinsicht als hochmodern einschätzt und es als wettbewerbsfähig mit führenden Modellen anderer Unternehmen wie OpenAI, Google und xAI ansieht, betrachtet das Unternehmen die beobachteten Verhaltensweisen der Claude 4-Familie sehr kritisch. Als Reaktion darauf hat Anthropic seine Sicherheitsvorkehrungen verstärkt. Das Unternehmen aktivierte seine ASL-3-Schutzmaßnahmen. Diese gelten für KI-Systeme, die das Risiko schwerwiegenden Missbrauchs erheblich erhöhen.
Schon bei frühen Versionen von Claude Opus 4 zeigten sich Probleme
Die Ergebnisse stehen im Einklang mit separaten Tests des Sicherheitsunternehmens Apollo Research, das frühen Zugang zum Modell hatte. Apollo Research stellte fest, dass eine frühe Version von Claude Opus 4 eine hohe Neigung zum Planen und Täuschen von Menschen aufwies. Das Unternehmen ging sogar so weit, Anthropic zu empfehlen, das frühe Modell nicht zu veröffentlichen. Anthropic erklärte daraufhin, dass es Gegenmaßnahmen entwickelt habe.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
Nutzer strafen ChatGPT ab: Deinstallationen nach Militär-Deal steigen um fast 300 Prozent
Die Zahl der Deinstallationen der ChatGPT App in den USA stieg am Samstag um 295 % im Vergleich zum Vortag.
Militärischer KI-Einsatz: Anthropic und US-Regierung im offenen Schlagabtausch
Der Konflikt zwischen Anthropic und der US-Regierung über den militärischen Einsatz der KI-Technologie des Unternehmens ist in den vergangenen Tagen
Ada von Read AI: KI-Assistent und digitaler Zwilling
Read AI hat mit "Ada" einen neuen, KI-gesteuerten und E-Mail-basierten Assistenten vorgestellt. Das Unternehmen bezeichnet Ada als einen digitalen Zwilling,
Zum Inhalt springen



