Heute wurde Claude Opus 4.7 veröffentlicht und ist ab sofort allgemein verfügbar. Es bietet insbesondere bei komplexen, langwierigen Aufgaben und im Bereich des Software Engineerings deutliche Verbesserungen gegenüber dem Vorgängermodell Claude Opus 4.6.
Hier sind die wichtigsten Verbesserungen und Vergleiche mit Opus 4.6 im Überblick:
- Opus 4.7 kann nun die schwersten Programmieraufgaben übernehmen, die bei Opus 4.6 noch enge Überwachung erforderten. Es überprüft seine eigenen Ergebnisse, bevor es sie zurückmeldet, und zeigt in Benchmarks eine um 13 % höhere Lösungsrate bei Programmieraufgaben als Opus 4.6. Bei Rakuten-SWE-Bench löst es sogar dreimal mehr Produktionsaufgaben als sein Vorgänger. Das Modell kann stundenlang kohärent an schwierigen Problemen arbeiten, ohne aufzugeben.
- Opus 4.7 kann Bilder in einer dreimal so hohen Auflösung (bis zu 2.576 Pixel an der langen Kante, ca. 3,75 Megapixel) verarbeiten wie frühere Claude-Modelle. Das verbessert das multimodale Verständnis deutlich: von der Interpretation komplexer technischer Diagramme bis hin zum Lesen chemischer Strukturen und detaillierter Screenshots.
- Bei mehrstufigen Arbeitsschritten liefert Opus 4.7 eine Leistungssteigerung von 14 % gegenüber Opus 4.6, benötigt dafür weniger Token und verursacht nur noch ein Drittel der Tool-Fehler. Es erkennt fehlende Daten zuverlässig und tappt nicht in „Dissonant-Data"-Fallen, auf die Opus 4.6 noch hereinfiel.
- Das Modell nimmt Anweisungen wesentlich wörtlicher und genauer als ältere Versionen. Zudem verfügt es über ein verbessertes dateisystembasiertes Gedächtnis, mit dem es sich in langen, über mehrere Sitzungen gehenden Arbeiten wichtige Notizen merken kann, sodass für neue Teilaufgaben weniger Vorab-Kontext nötig ist.
- Opus 4.7 arbeitet bei professionellen Aufgaben kreativer und stilsicherer Es generiert hochwertigere Benutzeroberflächen, Präsentationen und Dokumente und wird von Testern als das weltweit beste Modell für das Erstellen von Dashboards mit vielen Daten bezeichnet.
Abbildung 1: Claude Opus 4.7 im Vergleich mit anderen KI-Modellen
Trotz dieser Verbesserungen bleibt die Preisgestaltung identisch zu Opus 4.6 (5 US-Dollar pro Million Input-Token und 25 US-Dolar pro Million Output-Token). Opus 4.7 verwendet allerdings einen neuen Tokenizer, der den gleichen Text in etwa 1,0- bis 1,35-mal so viele Token umwandelt. Bei höherem Aufwand denkt Opus 4.7 tiefer nach. Das kann zu mehr Output-Token führen.
Was wurde heute noch veröffentlicht?
Zusätzlich zu Claude Opus 4.7 wurden heute folgende Neuerungen eingeführt:
- Neue Aufwandsstufe „xhigh" (Extra High): Für Nutzer, die mehr Kontrolle über den Kompromiss zwischen Reasoning-Tiefe und Latenzzeit benötigen, gibt es nun eine neue Stufe zwischen „high" und „max". In Claude Code ist das nun die Standardstufe.
- Task-Budgets in der Claude Platform (API): Entwickler erhalten in einer Public Beta die Möglichkeit, Aufgabenbudgets festzulegen. Damit kann man die Token-Ausgaben von Claude steuern und priorisieren, wenn das Modell sehr lange Durchläufe absolviert.
- Neue Funktionen in Claude Code: Es gibt einen neuen /ultrareview-Befehl, der eine dedizierte Überprüfungssitzung startet, in der Code gelesen und Bugs oder Designprobleme markiert werden. Pro- und Max-Nutzer können dieses Feature dreimal kostenlos testen.
- Auto-Modus für Max-Nutzer: Diese neue Berechtigungsoption wurde auf Max-Nutzer ausgeweitet. Im Auto-Modus darf Claude selbständig Entscheidungen treffen. Damit können Aufgaben mit deutlich weniger Unterbrechungen durch den Nutzer ausgeführt werden.
Claude 4.7 Opus gilt offiziell als das neue kommerzielle Flaggschiff des Unternehmens und soll einen weiteren Schritt weg vom klassischen Chatbot hin zum voll autonomen KI-Agenten markieren. Aber ist Opus 4.7 wirklich das stärkste Modell, das Anthropic anzubieten hat? Die Antwort, so viel sei vorweggenommen, ist erstaunlich vielschichtig.
Vom Chatbot zum digitalen Kollegen
Um zu verstehen, worum es bei Opus 4.7 geht, lohnt ein kurzer Blick auf die Entwicklungslinie. Das neue Modell baut auf dem erst im Februar 2026 erschienenen Opus 4.6 auf und treibt dessen Idee konsequent weiter: weg vom dialogorientierten Assistenten, hin zu einem System, das stundenlange, komplexe Arbeitsaufträge weitgehend selbstständig erledigt. Laut einem Bericht von Dataconomy wurde Opus 4.7 gezielt für solche langen, autonom ablaufenden Workflows konzipiert. Wo frühere Modelle noch primär auf Zuruf reagiert haben, soll Opus 4.7 eigenständig planen, ausführen, sich bei Fehlern selbst korrigieren und am Ende ein fertiges Ergebnis liefern.
Technisch steckt hinter dieser Fähigkeit ein ganzes Bündel von Neuerungen. Das nutzbare Kontextfenster wurde auf 1,2 Millionen Token erweitert. Das hat in der Praxis deutliche Auswirkungen, denn in der KI-Forschung kennt man das Phänomen des sogenannten Kontextverfalls: Je mehr Informationen ein Modell gleichzeitig im Kopf behalten muss, desto schlechter kann es einzelne Details zuverlässig wiederfinden.
Anthropic begegnet diesem Effekt mit Techniken wie Tool-Result Clearing und Compaction. Opus 4.7 soll durch verbesserte Aufmerksamkeitsmechanismen in der Lage sein, mehrere verstreute Informationsfragmente gleichzeitig zu finden und logisch sinnvoll miteinander zu verknüpfen, etwa verteilte Funktionsaufrufe in einer gewachsenen Codebasis oder verwandte Klauseln in hunderten Seiten Vertragsrecht.
Noch spannender ist eine Neuerung, die intern den Charakter des Systems verändert: das zustandsbehaftete Gedächtnis, auch Stateful Memory genannt. Bisher nahm ein Modell bei jeder Interaktion eine Art Schnappschuss der vorliegenden Informationen und begann, zugespitzt gesagt, jedes Mal bei null. Opus 4.7 dagegen kann eine dauerhafte mentale Karte eines ganzen Softwareprojekts aufbauen und über Tage pflegen. Mit Zugriff auf lokale Dateisysteme extrahiert das Modell Architekturmuster, Abhängigkeiten und zentrale Fakten und behält sie über einzelne Sitzungen hinweg. Für Entwicklerinnen und Entwickler bedeutet das: Ein Refactoring im großen Stil muss nicht mehr in jedem Gespräch neu erklärt werden. Das Modell weiß, woran es arbeitet.
Der erweiterte Thinking Mode und weniger Halluzinationen
Opus 4.7 verfügt über einen erweiterten Thinking Mode, der bei komplexen Aufgaben aktiviert werden kann. Während das Modell in diesem Modus arbeitet, iteriert es intern durch längere Argumentationsketten, testet parallel Hypothesen per Websuche oder Code-Ausführung und verwirft eigene Zwischenergebnisse, wenn sie nicht tragfähig sind. Das Ergebnis: deutlich weniger logische Fehlschlüsse, vor allem bei mathematischen und juristischen Aufgaben.
In Zahlen ausgedrückt sinkt die logische Fehlerrate laut Beta-Daten auf 9,1 Prozent, während zum Beispiel GPT-5.4 bei 11,4 Prozent liegt. Noch wichtiger für autonome Agenten ist die Halluzinationsrate bei API-Aufrufen, also die Häufigkeit, mit der das Modell Funktionen ansteuert, die es so gar nicht gibt. Hier kommt Opus 4.7 auf 5,7 Prozent gegenüber 8,2 Prozent beim direkten OpenAI-Konkurrenten.
Im anspruchsvollen SWE-bench Verified, der die Fähigkeit eines KI-Agenten misst, echte GitHub-Issues in realen Codebasen zu beheben, erreicht das Vorgängermodell Opus 4.6 bereits rund 80,8 Prozent und liegt damit knapp vor GPT-5.4. Opus 4.7 soll diesen Wert vor allem durch mehr Zuverlässigkeit bei langen, komplexen Aufgaben weiter stabilisieren.
| Metrik / Benchmark-Kategorie | Claude Opus 4.7 (Beta) | GPT-5.4 | DeepSeek V3.2 (OS) | Kimi K2.5 (OS) | Claude Opus 4.6 |
| SWE-bench Verified (% gelöst) | ~80.8% | ~80.0% | 73.0% | 76.8% | 80.8% |
| Logic Error Rate | 9.1% | 11.4% | k.A. | k.A. | k.A. |
| Halluzinationen (API-Aufrufe) | 5.7% | 8.2% | k.A. | k.A. | k.A. |
| Humanity's Last Exam (Reasoning) | >40.0% (projiziert) | 41.6% | 39.3% | 50.2% | 40.0% |
| MMLU-Pro (Wissensbasis) | >82.0% (projiziert) | 88.5% | 85.0% | 87.1% | 82.0% |
| Maximales Kontextfenster | 1.2M Token | 1.05M Token | k.A. | k.A. | 1.0M Token |
| Output Speed (Token/s) | Moderate | ~78 | ~60 | 334 | 46 |
Tabelle 1: Claude Opus 4.7 im Vergleich mit anderen Modellen. Datenquellen basieren auf aggregierten Metriken, SWE-bench Publikationen und Beta-Test-Analysen. OS = Open Source.
Routines: Wenn die KI nachts weiterarbeitet
Ein Modell allein wäre nur die halbe Geschichte. Parallel zu Opus 4.7 baut Anthropic sein Entwicklerwerkzeug Claude Code grundlegend um. Das Herzstück heißt „Routines" und wird in der offiziellen Dokumentation unter code.claude.com ausführlich beschrieben. Die Idee dahinter: Bisher mussten Entwickler eigene Cron-Jobs schreiben, lokale MCP-Server am Laufen halten und darauf achten, dass ihr Rechner nicht in den Ruhezustand geht, wenn die KI im Hintergrund arbeiten sollte. Routines verlagert genau diese Ausführungsebene vollständig in die von Anthropic verwaltete Cloud.
Wie The New Stack schreibt, kann Claude Code dadurch nun über Nacht den eigenen Job erledigen. Ein Workflow wird einmal konfiguriert, mit Prompt, Git-Zugriff und API-Konnektoren zu Diensten wie Slack, Linear oder Google Drive, und läuft dann in der Cloud, selbst wenn der Laptop längst zugeklappt ist. Drei Trigger-Mechanismen stehen laut einem Bericht von 36kr zur Verfügung: zeitgesteuerte Ausführungen ähnlich Cron-Jobs, API-Trigger über individuelle Webhooks und GitHub-Ereignisse wie das Öffnen eines Pull Requests. Ein denkbares Szenario: Mitten in der Nacht meldet ein Monitoring-System einen kritischen Laufzeitfehler. Claude empfängt den Webhook, analysiert den Stack-Trace, sucht die Ursache im Repository und legt einen Pull Request mit einem Fix an – und das alles, bevor die Kolleginnen und Kollegen morgens ihren Kaffee aufgesetzt haben.
Eine Erprobung durch VentureBeat zeigt, dass Anthropic dafür auch die Benutzeroberfläche grundlegend überarbeitet hat. Das neue Dashboard trägt den Spitznamen „Mission Control" und erlaubt es, parallele Sitzungen zu überwachen, nach Status zu filtern und einzugreifen, wenn eine Routine vom Kurs abkommt. Die Rolle des Menschen verschiebt sich damit erkennbar: Weniger selbst programmieren, mehr orchestrieren. Dass Anthropic dabei in der Research-Preview-Phase strikte Limits setzt (fünf Routinen pro Tag im Pro-Plan, bis zu 25 im Enterprise-Tarif, wie The Register berichtet), hat ökonomische Gründe, denn autonome Opus-Agenten in der Cloud sind alles andere als günstig.
Schockwellen auf dem Design-Markt
Als wäre das nicht genug, veröffentlicht Anthropic zeitgleich ein neues KI-Design-Tool. Wer schon einmal mit natürlicher Sprache eine komplette Landingpage erzeugen wollte, kennt das Problem: Meist entsteht ein hübsches Mockup, das dann aber mühsam in echten Code übersetzt werden muss. Genau diese Lücke soll das neue Werkzeug schließen. Laut einer Analyse von eWeek generiert die Plattform auf Basis von Opus 4.7 vollständige, responsive Benutzeroberflächen auf Grundlage einfacher Anweisungen in natürlicher Sprache. Das Tool integriert sich in moderne Frameworks wie Next.js und Tailwind CSS. Statt nur Wireframes liefert es modularen, deploybaren Produktivcode.
Besonders clever: Die Plattform unterstützt sogenannte Git Worktrees, sodass mehrere KI-Agenten parallel an verschiedenen UI-Komponenten arbeiten können, ohne sich in die Quere zu kommen. Wer Corporate-Design-Vorgaben einhalten muss, kann Bildreferenzen hochladen, an denen sich die KI orientiert.
Die Reaktion der Märkte ließ nicht lange auf sich warten. Nachdem The Information (Bezahlinhalte) über die Pläne berichtet hatte, verzeichneten Aktien von Adobe, Figma und Wix nachbörsliche Rückgänge. Der S&P 500 Software and Services Index, der im laufenden Jahr ohnehin schon rund 26 Prozent verloren hatte, reagierte entsprechend nervös. Die Sorge der Investoren ist nachvollziehbar: Wenn ein einziger KI-Agent Design, Umsetzung und Deployment übernimmt, schrumpft der Markt für fragmentierte SaaS-Produkte möglicherweise deutlich. Anthropic wandelt sich mit diesem Schritt zum Full-Stack AI Studio: Das Unternehmen ist nicht mehr nur API-Anbieter, sondern deckt den gesamten digitalen Wertschöpfungsprozess ab.
Die entscheidende Frage: Ist Opus 4.7 wirklich das stärkste Modell?
Nach all diesen beeindruckenden Fähigkeiten kommen wir zur Kernfrage. Und hier wird es spannend, weil die ehrliche Antwort ein klares Nein ist. Opus 4.7 ist das stärkste kommerziell verfügbare Modell von Anthropic – aber es ist bei Weitem nicht das mächtigste System, das im Labor existiert.
Ende März 2026 erschütterten zwei aufeinanderfolgende Datenlecks das ansonsten als sicherheitsbewusst geltende Unternehmen. Am 31. März pushte ein fehlerhaftes Update eines NPM-Pakets von Claude Code versehentlich über 500.000 Zeilen proprietären Quellcode in ein öffentliches Repository. Das damit enthüllte Modell heißt offiziell Claude Mythos. Analystenschätzungen gehen von bis zu zehn Billionen Parametern aus.
Bisher hat Anthropic Claude Mythos noch nicht der breiten Öffentlichkeit zur Verfügung gestellt, sondern erlaubt lediglich den begrenzten Zugriff für ausgewählte Entwickler im Rahmen des "Project Glasswing". Der Grund sind Sicherheitsbedenken, weil das neue Modell so mächtig ist. Die Nutzung erfolgt ausschließlich in kontrollierten Umgebungen wie einer speziellen Instanz von Amazon Bedrock, inklusive eigener Modellkarte in der AWS-Dokumentation. Eine allgemeine API-Freigabe ist laut Anthropic ausdrücklich nicht geplant.
Während Opus 4.7 ein exzellentes defensives Werkzeug zur Softwareentwicklung ist, repräsentiert Mythos einen bedeutenden Sprung in der autonomen Erforschung von Schwachstellen in Software. Laut den aus dem Leak stammenden Informationen ist das Modell in der Lage, bislang unbekannte Zero-Day-Schwachstellen in Betriebssystemen, großen Open-Source-Bibliotheken wie dem Linux-Kernel und in Web-Browsern völlig selbstständig zu finden. Ein Reddit-Thread auf r/ClaudeAI spricht von einem „step change" in der Leistungsfähigkeit.
Besonders heikel ist das sogenannte Automated Exploit Chaining: Mythos kann eine Kette unterschiedlicher, einzeln oft harmlos wirkender Schwachstellen selbstständig kombinieren und etwa eine Speicherkorruption ausnutzen, Sandbox-Mechanismen umgehen, Privilegien eskalieren und am Ende volle administrative Kontrolle über ein System erlangen. Alles ohne menschliches Zutun. Ein Sicherheitsexperte brachte es in den kursierenden Analysen drastisch auf den Punkt: Man spreche hier nicht mehr über KI-gestütztes Programmieren, sondern über autonome Vulnerabilitätsforschung.
Fazit: Ein doppelter Maßstab und seine Logik
Claude Opus 4.7 ist ohne Frage ein beeindruckendes Upgrade. Mit seinem 1,2-Millionen-Token-Kontextfenster, dem zustandsbehafteten Gedächtnis, spürbar niedrigeren Fehlerraten und der neuen Infrastruktur aus Routines und Designplattform definiert Anthropic den kommerziellen Stand der KI für Softwareentwicklung und digitale Produktgestaltung neu. Für Unternehmen, die produktiv mit KI-Agenten arbeiten wollen, dürfte Opus 4.7 auf absehbare Zeit eine der besten verfügbaren Optionen sein.
Das eigentlich leistungsfähigste Modell von Anthropic bleibt aber verborgen. Claude Mythos, intern Capybara genannt, existiert, funktioniert und ist nach allem, was bekannt ist, ein qualitativer Sprung nach vorn. Anthropic trifft eine bewusste Entscheidung: Opus 4.7 wird der Wirtschaft zugänglich gemacht, Mythos bleibt im Hochsicherheitstrakt. Das ist ein Zeichen dafür, dass die Debatte um KI-Sicherheit in einer neuen Phase angekommen ist. Wer die mächtigsten Systeme entwickelt, muss sich auch fragen, wem er sie in die Hand gibt. Die Antwort von Anthropic lautet derzeit: nur wenigen und nur mit extrem engen Leitplanken.
Ob sich dieses Zwei-Klassen-System der KI dauerhaft durchhalten lässt, ist offen. Klar ist aber: Die spannendsten Geschichten der nächsten Jahre werden sich nicht an der Frage entscheiden, welches Modell im Benchmark einen Prozentpunkt mehr holt. Sie werden sich daran entscheiden, wie Gesellschaften mit Systemen umgehen, deren Fähigkeiten zunehmend die menschlichen übersteigen.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
Umfrage: Drei Viertel der Amerikaner sind bei KI-Antworten skeptisch
Eine aktuelle Umfrage aus den USA zeigt eine nach wie vor hohe Skepsis vieler Menschen gegenüber dem Einsatz von KI.
Stanford-Studie: wie KI-Schmeichelei unser Urteilsvermögen verzerrt
Eine neue Studie zeigt, dass KI-Systeme ihre Nutzer systematisch in ihren Handlungen bestätigen, selbst wenn diese moralisch fragwürdig oder sogar
Neue Zahlen von Anthropic: Erfahrene KI-Nutzer erzielen bessere Ergebnisse
Der aktuelle Anthropic Economic 2026 Index liefert spannende Einblicke in die wirtschaftlichen Auswirkungen und das Nutzungsverhalten rund um den KI-Assistenten