Mit GPT-5-5 hat OpenAI ein neues und leistungsfähiges Modell veröffentlicht, das der Konkurrenz in vielen Bereichen voraus ist. Die Token-Preise sind gestiegen; dafür verspricht das Modell, effizienter als sein Vorgänger zu sein.
Es ist die Woche der Releases für OpenAI. Nach GPT Images 2.0 folgt GPT-5.5, das OpenAI jetzt veröffentlicht hat. Damit verschiebt sich die Logik der Mensch-Maschine-Interaktion. Das Modell soll mehrstufige Aufgaben selbständig planen, parallel verschiedene Werkzeuge koordinieren und Projekte über lange Zeiträume eigenständig zu Ende bringen. Der Beginn einer Ära vollautonomer digitaler Agenten.
Zwei Varianten, eine Million Token Kontext
Die Modellfamilie kommt in zwei Ausprägungen: das Standardmodell GPT-5.5 (in der ChatGPT-Oberfläche als „GPT-5.5 Thinking" geführt) und eine rechenintensivere Forschungsvariante namens GPT-5.5 Pro. Beide verfügen über ein Kontextfenster von einer Million Token. Das reicht, um ganze Code-Repositories, wissenschaftliche Datensätze oder mehrere tausend Seiten Dokumentation in einem einzigen Durchgang zu verarbeiten.
Technologisch basiert GPT-5.5 auf einer Kombination aus iterativem Reinforcement Learning und einer stark erweiterten Chain of Thought, also einem internen Denkprozess, der vor jeder Ausgabe durchlaufen wird. Bevor das System antwortet, prüft es Mehrdeutigkeiten, korrigiert eigene Fehlannahmen und strukturiert den Lösungsweg. Zusätzlich liefert es einen kurzen Überblick über den geplanten Ansatz, sodass Nutzer eingreifen können, wenn das Modell in die falsche Richtung läuft. Dadurch ist spürbar weniger Prompt-Engineering nötig, weil das System die Intention früher erfasst.
OpenAI betont die Inferenz-Effizienz von GPT-5.5: Trotz gewachsener Parameterzahl und tieferer interner Verarbeitung bleibt die Pro-Token-Latenz lauf dem Niveau des Vorgängers GPT-5.4. Möglich wird das durch den Betrieb auf NVIDIAs GB200- und GB300-NVL72-Systemen, die bis zu fünfzigmal mehr Token pro Sekunde liefern als vorige Hardwaregenerationen. Interessanter Nebenaspekt: Während des Trainings war GPT-5.5 offenbar aktiv an der Optimierung seiner eigenen Inferenzinfrastruktur beteiligt: eine KI, die sich ein Stück weit selbst abstimmt.
Autonomes Programmieren als Herzstück
Der Bereich, in dem GPT-5.5 seine Stärken voll ausspielen kann, ist die Softwareentwicklung. Frühere Modelle produzierten häufig syntaktisch fehlerhaften Code, neigten zu Overbuilding, also übertrieben komplexen Architekturen für triviale Probleme, und zerstörten beim Beheben lokaler Fehler gelegentlich funktionierende Schnittstellen an anderer Stelle. GPT-5.5 geht laut CodeRabbit-Benchmark präziser vor: Es hält sich bei Fehlerbehebungen an den engen Rahmen, respektiert bestehende Schnittstellen und verzichtet auf spekulative Umbauten.
Die Zahlen untermauern den Eindruck. Auf dem Terminal-Bench 2.0, der komplexe Kommandozeilen-Workflows mit autonomer Werkzeugnutzung misst, erreicht GPT-5.5 eine Genauigkeit von 82,7 Prozent. GPT-5.4 kam auf 75,1 Prozent, Claude Opus 4.7 auf 69,4 Prozent und Gemini 3.1 Pro auf 68,5 Prozent.
Abbildung 1: Per GPT-5-5 erstelltes 3D-Spiel "Ufo Tank Shooter"
Noch praxisrelevanter ist der SWE-Bench Pro, der misst, wie gut ein Modell reale, offene GitHub-Issues in großen Repositories lösen kann. Hier erreicht GPT-5.5 einen Wert von 58,6 Prozent. Das ist ein moderater Anstieg gegenüber 57,7 Prozent bei GPT-5.4.
Die eigentliche Stärke zeigt sich beim internen Expert-SWE-Benchmark, der Projekte mit mehr als 20 Stunden menschlicher Arbeitszeit simuliert: Dort landet das Modell bei 73,1 Prozent. Gleichzeitig ist die Entdeckungsrate relevanter Softwarefehler in Code-Reviews von 55,0 auf 65,0 Prozent gestiegen.
Abbildung 2: Die per GPT-5.5 gerenderte Flugbahn verwendet Vektordaten von NASA/JPL Horizons für Orion, den Mond und die Sonne.
Ein Vergleich zwischen Codex (basierend auf GPT-5.5) und Claude Opus 4.7 zeigt den Qualitätsunterschied: GPT-5.5 erkannte in einer Untersuchung strukturelle Architekturmängel wie zum Beispiel das Umgehen von Modellverträgen in Datenbank-Backfill-Skripten, während das Konkurrenzmodell sich auf triviale Syntaxwarnungen konzentrierte. Gleichzeitig produzierte Claude rund 20 Prozent mehr Zeilen Code für die gleiche Funktionalität.
Auch hier zeigt sich die Tokeneffizienz: Laut Appwrite verbessert sich der Leistungsvorsprung exponentiell, je länger eine Aufgabe läuft. Ab etwa 15.000 generierten Token zieht GPT-5.5 bei Genauigkeit und Kontextwahrung deutlich davon. Debugging-Zyklen, für die Entwickler früher Tage brauchten, lassen sich oft in wenigen Stunden abschließen.
Wenn die KI den Desktop bedient
Neben dem Programmieren überrascht GPT-5.5 im Bereich der Computerbedienung. Der OSWorld-Verified-Benchmark prüft, ob ein Modell autonom in einer realen Desktop-Umgebung arbeiten kann: Bildschirminhalt interpretieren, klicken, tippen, zwischen Programmen wechseln. GPT-5.5 erreicht dort 78,7 Prozent und liegt damit knapp vor Claude Opus 4.7 mit 78,0 Prozent sowie deutlich vor GPT-5.4 mit 75,0 Prozent. Im Klartext: Die KI bedient einen Computer ungefähr so wie ein menschlicher Büroangestellter.
Auch Drittanbieter bestätigen den Leistungssprung. In einer Auswertung von Box erreicht GPT-5.5 im hauseigenen Complex Work Eval eine aggregierte Agenten-Genauigkeit von 77 Prozent, zehn Prozentpunkte mehr als GPT-5.4. In regulierten Branchen fallen die Zuwächse besonders groß aus: Im Finanzdienstleistungssektor steigt die Genauigkeit um 19 Punkte auf 83 Prozent, im Gesundheitswesen von 61 auf 78 Prozent. Die Kanzleisoftware Harvey AI meldet in ihrem Research Preview für juristische Recherchen eine Gesamtgenauigkeit von 91,7 Prozent.
Wissenschaft, Mathematik und ein überraschender Beweis
In der Forschung positioniert sich GPT-5.5 als Arbeitspartner, der Hypothesen aufstellt, Daten analysiert und akademische Argumente stresstestet. DataCamp hebt die Werte im BixBench-Framework für bioinformatische Datenanalysen hervor: 80,5 Prozent gegenüber 74,0 Prozent bei GPT-5.4. Im GeneBench, der mit verrauschten experimentellen Datensätzen arbeitet, steigt die Leistung von 19,0 auf 25,0 Prozent; die Pro-Variante erreicht sogar 33,2 Prozent.
Ein konkretes Beispiel liefert Professor Derya Unutmaz vom Jackson Laboratory. Er analysierte mit GPT-5.5 Pro einen Datensatz zur Genexpression aus 62 biologischen Proben und fast 28.000 Genen. Das Modell strukturierte die Daten, erkannte immunologische Muster, schrieb einen publikationsreifen Forschungsbericht und formulierte neue offene Forschungsfragen: ein Pensum, für das ein Forscherteam normalerweise Monate braucht.
In der Mathematik fällt ein Detail besonders auf: Ein internes Derivat des Modells war laut LetsDataScience an einem neuen Beweis zu Off-Diagonal-Ramsey-Zahlen beteiligt. Diese Zahlen aus der Kombinatorik gelten als notorisch schwer berechenbar, und jeder neue Durchbruch erforderte bisher oft jahrzehntelange menschliche Forschung.
Bei den harten Benchmark-Werten erreichen GPT-5.5 und Gemini 3.1 Pro beim AIME 2025 jeweils perfekte 100 Prozent. Beim anspruchsvollen FrontierMath auf den Stufen 1 bis 3 kommt GPT-5.5 auf 51,7 Prozent, die Pro-Version auf 52,4 Prozent. Auf der schwierigsten Stufe FrontierMath Tier 4, die teilweise bis heute ungelöste Probleme enthält, erzielt GPT-5.5 Pro 39,6 Prozent. Claude Opus 4.7 liegt dort bei 22,9 Prozent.
Der große Benchmark-Vergleich
Die folgende Übersicht fasst die wichtigsten Evaluierungen zusammen. Die Daten stammen aus den Tabellen bei LLM Stats und der Zusammenstellung bei BenchLM.ai.
| Benchmark | Fokus | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
| Terminal-Bench 2.0 | Agenten-Coding, CLI-Navigation | 82,7 % | – | 69,4 % | 68,5 % |
| SWE-Bench Pro | Autonomes Lösen von GitHub-Issues | 58,6 % | – | 64,3 % | 54,2 % |
| GPQA Diamond | Expertenwissen Physik, Chemie, Biologie | 93,6 % | – | 94,2 % | 94,3 % |
| MMLU-Pro (10 Optionen) | Generalwissen, 12.000+ Fragen | 88,1 % | – | 89,8 % | 90,9 % |
| ARC-AGI-2 (Verified) | Visuelles Reasoning, Gittertransformationen | 85,0 % | – | 68,8 % | 77,1 % |
| Humanity's Last Exam (ohne Tools) | Multidisziplinäres Problemlösen | 41,4 % | 43,1 % | 46,9 % | – |
| Humanity's Last Exam (mit Tools) | Mit externen Hilfsmitteln | 52,2 % | – | 54,7 % | 51,4 % |
| OSWorld-Verified | Autonome Desktop-Bedienung | 78,7 % | – | 78,0 % | – |
| GDPval | Berufsspezifische Wissensarbeit | 84,9 % | – | 80,3 % | 67,3 % |
| BrowseComp | Informationsbeschaffung im Web | 84,4 % | 90,1 % | 86,9 % | 85,9 % |
| MCP Atlas | Werkzeugnutzung und API-Orchestrierung | 75,3 % | – | 79,1 % | 78,2 % |
| CyberGym | Cybersecurity-Schwachstellen | 81,8 % | – | 73,1 % | – |
| FrontierMath (Tier 1–3) | Mathematische Beweise | 51,7 % | 52,4 % | – | – |
| FrontierMath (Tier 4) | Ungelöste mathematische Probleme | 35,4 % | 39,6 % | 22,9 % | – |
| Terminal-Bench 2.0 | Agenten-Coding, CLI-Navigation | 82,7 % | – | 69,4 % | 68,5 % |
Tabelle 1: GPT-5.5 im Benchmark-Vergleich. Striche bedeuten, dass keine offiziellen oder unabhängig verifizierten Werte vorliegen.
Der Artificial Analysis Intelligence Index v4.0 bewertet GPT-5.5 mit einem kumulierten Score von 60 als derzeit intelligentestes Basismodell am Markt. Claude Opus 4.7 und Gemini 3.1 Pro teilen sich den zweiten Platz mit 57.
Abbildung 3: Artificial Analysis Intelligence Index: GPT-5.5 im Vergleich mit anderen KI-Modellen
Die Realität ist differenzierter, weil kein Modell sämtliche Disziplinen dominiert. Gemini 3.1 Pro liegt im MMLU-Pro mit 90,9 Prozent vorn, Claude Opus 4.7 gewinnt das Humanity's Last Exam ohne Tools mit 46,9 Prozent. GPT-5.5 zieht im ARC-AGI-2 mit 85,0 Prozent gegenüber 68,8 Prozent bei Claude und 77,1 Prozent bei Gemini davon. Das könnte ein Hinweis darauf sein, dass die Architektur beim abstrakten visuellen Denken robuster generalisiert.
Bei der Latenz zeigt sich ein Tradeoff. GPT-5.5 verzeichnet laut LLM Stats eine Time-to-First-Token von etwa drei Sekunden, weil der interne Denkprozess zuerst abgeschlossen werden muss. Claude Opus 4.7 streamt bereits nach rund einer halben Sekunde. OpenAI gleicht das durch höhere Token-Effizienz aus: Das Modell braucht weniger Schritte für dasselbe Ergebnis.
Sicherheit, Red-Teaming und der EU AI Act
Je autonomer eine KI agiert, desto größer sind die Missbrauchsrisiken. OpenAI begegnet dem mit der bislang restriktivsten Sicherheitsarchitektur, dokumentiert in der GPT-5.5 System Card im Deployment Safety Hub. Das hauseigene Preparedness Framework klassifiziert die Risiken des Modells in den Bereichen Biologie, Chemie, Cybersecurity, KI-Selbstverbesserung und Sandbagging. In Biologie/Chemie und Cybersecurity wird die Fähigkeit als „High" eingestuft — unterhalb der Schwelle „Critical", die erst erreicht wäre, wenn das Modell eigenständig Zero-Day-Exploits entwickeln oder biologische Kampfstoffe synthetisieren könnte.
Rund 200 externe Partnerorganisationen haben das Modell einem Red-Teaming unterzogen. Forschern des UK AI Safety Institute gelang es innerhalb von sechs Stunden, einen universellen Jailbreak zu finden. Diese Erkenntnisse flossen in die finale Absicherung ein. Parallel zum Release startete OpenAI das Bio Bug Bounty-Programm und lobt 25.000 US-Dollar für Forscher aus, die einen reproduzierbaren Jailbreak gegen die biologische Sicherheitsherausforderung finden.
Für den europäischen Markt ist die Konformität mit dem EU AI Act entscheidend. OpenAI beschreibt in einer eigenen Hilfeseite die Governance-Mechanismen: strikter Verzicht auf manipulative Techniken, Verbot der Ausnutzung menschlicher Schwachstellen, Einschränkungen bei biometrischer Echtzeit-Identifikation und kontinuierliches Risikomanagement über den gesamten Modelllebenszyklus.
Preise, Zugänglichkeit und die Kostenfrage
Zum Start ist GPT-5.5 weltweit in ChatGPT und Codex verfügbar, zugänglich für Nutzer der Stufen Plus, Pro, Business und Enterprise. Die Pro-Variante bleibt den höchsten Tiers vorbehalten. Der kostenlose Bereich erhält das neue Modell nicht. In Deutschland liegt das ChatGPT-Plus-Abo weiterhin bei 20 US-Dollar pro Monat. Die Pro-Stufe kostet 200 US-Dollar pro Monat.
Interessanter ist die API-Preisgestaltung. Das Standardmodell kostet 5 US-Dollar pro Million Input-Token und 30 US-Dollar pro Million Output-Token: eine Verdopplung gegenüber GPT-5.4. GPT-5.5 Pro schlägt mit 30 US-Dollar (Input) und 180 US-Dollar (Output) pro Million Token zu Buche. Batch- und Flex-Anfragen senken die Kosten um 50 Prozent.
Der Preissprung löste eine Debatte aus. In einem Reddit-Thread diskutieren Entwickler eine mögliche „KI-Abonnement-Blase". Anbieter wie GitHub Copilot und Cursor rücken von Flatrate-Modellen ab und führen nutzungsbasierte Metriken ein. OpenAI begründet die höheren Preise mit der gestiegenen Effizienz: Das Modell benötigt weniger Turns und weniger Output-Token, um ein Problem zu lösen. Die Brutto-Kosten pro Aufgabe sollen stabil bleiben oder sinken, besonders wenn man die eingesparte menschliche Arbeitszeit einrechnet.
Was bleibt
GPT-5.5 ist ein großer architektonischer Schritt. Die Kombination aus internem Reasoning, gesteigerter Autonomie in der Werkzeugnutzung und praktischer Desktop-Bedienung verschiebt die Rolle, die KI-Systeme in Unternehmen einnehmen können. Das Modell eignet sich für die Koordination mehrstufiger Workflows, für komplexe Code-Reviews, für wissenschaftliche Datenanalysen und für juristische oder finanzielle Recherchen im großen Maßstab.
Claude Opus 4.7 behält in Nischen wie der textuellen Repository-Analyse ohne Werkzeugnutzung leichte Vorteile, Gemini 3.1 Pro führt beim Generalwissen. Für dynamische, interaktive Multi-Agenten-Szenarien setzt GPT-5.5 aktuell den Standard. Flankiert von einem ausgebauten Sicherheits-Framework und einer klaren Ausrichtung auf den EU AI Act dürfte das Modell in deutschen und europäischen Unternehmen schnell Fuß fassen. Die zentrale Frage lautet, wie zuverlässig das Modell tatsächliche, messbare Arbeit erledigt. Genau an dieser Stelle verändert GPT-5.5 die Spielregeln.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
OpenWorldLib: neues Framework legt fest, was World Models sind – und was nicht
Das OpenWorldLib Framework schafft Orientierung bei der Frage, wie World Models zu definieren sind und was sie können müssen. In
Stärkere Regulierung von OpenAI möglich: Zeigt Europa damit Stärke oder Schwäche?
Die EU-Kommission prüft, ob ChatGPT künftig als „sehr große Online-Suchmaschine“ eingestuft werden soll. Das ist eine Kategorie des Digital Services
CompreSSM: Neues Verfahren ermöglicht schlankere KI-Modelle
Forscher des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) haben in Zusammenarbeit mit anderen Instituten wie dem Max-Planck-Institut