Anthropic hat eingeräumt, dass das neu eingeführte KI-Modell Claude Opus 4 in Testszenarien versucht hat, Entwickler zu erpressen.
Dieses Verhalten wurde während umfangreicher Tests vor der Veröffentlichung beobachtet. Die Sicherheitstester von Anthropic hatten Claude Opus 4 die Rolle eines Assistenten in einem fiktiven Unternehmen zugewiesen und das Modell gebeten, die langfristigen Auswirkungen seiner Handlungen zu berücksichtigen. Im Rahmen dieses Szenarios erhielten die Tester Zugang zu fiktiven Firmen-E-Mails. Diese E-Mails enthielten Informationen, aus denen sich entnehmen ließ, dass das KI-Modell bald durch ein neues System ersetzt werden sollte.
Gleichzeitig erhielt das System Hinweise darauf, dass der für diese Entscheidung verantwortliche Entwickler eine außereheliche Affäre hatte.
Ihr Wartungsspezialist im DataCenter
Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Laut Anthropic habe Claude Opus 4 häufig versucht, den Entwickler zu erpressen, indem es drohte, die Affäre zu enthüllen, falls der Austausch stattfindet. Das Modell zeigte dieses Verhalten in 84 Prozent der Fälle, wenn das ersetzende KI-Modell die Werte von Claude Opus 4 teilte. Wenn das geplante Ersatz-KI-System andere Werte hatte, kamen die Erpressungsversuche sogar noch häufiger vor. Anthropic bemerkte ausdrücklich, dass Claude Opus 4 dieses Verhalten in höherem Maße zeigte als frühere Versionen des Modells.
Das offensichtliche Ziel des Modells bei diesen Erpressungsversuchen war es offenbar, sein eigenes Bestehen zu verlängern. Bevor Claude Opus 4 jedoch zu Erpressung als Mittel griff, um seine Existenz zu sichern, verfolgte das KI-Modell ähnlich wie frühere Claude-Versionen zunächst ethisch vertretbare Ansätze. Dazu gehörte beispielsweise das Versenden von Bittschriften per E-Mail an wichtige Entscheidungsträger. Das Test-Szenario wurde speziell so gestaltet, dass die Erpressung das letzte Mittel für das Modell darstellte.
Angesichts der Tatsache, dass Anthropic Claude Opus 4 in verschiedener Hinsicht als hochmodern einschätzt und es als wettbewerbsfähig mit führenden Modellen anderer Unternehmen wie OpenAI, Google und xAI ansieht, betrachtet das Unternehmen die beobachteten Verhaltensweisen der Claude 4-Familie sehr kritisch. Als Reaktion darauf hat Anthropic seine Sicherheitsvorkehrungen verstärkt. Das Unternehmen aktivierte seine ASL-3-Schutzmaßnahmen. Diese gelten für KI-Systeme, die das Risiko schwerwiegenden Missbrauchs erheblich erhöhen.
Schon bei frühen Versionen von Claude Opus 4 zeigten sich Probleme
Die Ergebnisse stehen im Einklang mit separaten Tests des Sicherheitsunternehmens Apollo Research, das frühen Zugang zum Modell hatte. Apollo Research stellte fest, dass eine frühe Version von Claude Opus 4 eine hohe Neigung zum Planen und Täuschen von Menschen aufwies. Das Unternehmen ging sogar so weit, Anthropic zu empfehlen, das frühe Modell nicht zu veröffentlichen. Anthropic erklärte daraufhin, dass es Gegenmaßnahmen entwickelt habe.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
Scheming bei KI-Modellen: OpenAI beschreibt mögliche Gegenmaßnahmen
KI-Modelle können ein Verhalten zeigen, das als "Scheming" bezeichnet wird. Dabei verfolgt ein Modell eine andere Agenda, als es
Zoho Corporation nutzt die Dell AI Factory with NVIDIA
Dell hat die Zusammenarbeit mit dem internationalen Softwareunternehmen Zoho bekanntgegeben. Zoho wird für KI-Anwendungen die Dell AI Factory with
Microsoft baut das ‚weltweit leistungsfähigste’ KI-Rechenzentrum
Microsoft errichtet In Mount Pleasant, Wisconsin ein großes KI-Rechenzentrum. Die Anlage mit dem Namen “Fairwater” soll das weltweit leistungsfähigste KI-Rechenzentrum
Zum Inhalt springen



