OpenAI bringt mit Codex KI-Agenten für die Softwareentwicklung

OpenAI hat eine Preview auf Codex vorgestellt, einen KI-Agenten für die Software-Entwicklung, der cloud-basiert arbeitet. Codex soll der leistungsfähigste KI-Coding-Agent von OpenAI sein. Er basiert auf codex-1, einer speziell für Software-Engineering optimierten Version von GPT-o3. codex-1 wurde durch Reinforcement Learning auf echten Coding-Aufgaben trainiert und zeichnet sich dadurch aus, dass er Code generiert, der dem menschlichen Stil und ähnelt, Anweisungen genau folgt und Tests iterativ ausführt, bis ein positives Ergebnis erzielt wird. Im Vergleich zu o3 liefert codex-1 bessere Code-Änderungen, die direkt überprüft und integriert werden können.

codex-1 zeigte in Benchmarks eine hohe Leistung – sogar ohne AGENTS.md oder benutzerdefiniertes Scaffolding. Die Ergebnisse in SWE-Bench überstiegen in der Genauigkeit o3-high:

Erfahren Sie mehr

Ihr Wartungsspezialist im DataCenter

Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

So funktioniert Codex

Der Zugriff auf Codex ist über die seitliche Navigation in ChatGPT möglich. Man kann Codex Aufgaben zuweisen, indem man einen entsprechenden Prompt eingibt und auf „Code“ klickt. Möglich ist es auch, Fragen zur Codebasis zu stellen, indem man „Ask“ wählt.

Jede Aufgabe wird in einer eigenständigen, isolierten Cloud-Sandbox-Umgebung bearbeitet. Diese Umgebung wird mit dem Code-Repository des Nutzers geladen. Innerhalb dieser Sandbox kann Codex Dateien lesen und bearbeiten sowie Befehle ausführen wie z. B. Test-Frameworks, Linter und Typ-Checker.

Die Bearbeitung einer Aufgabe dauert normalerweise zwischen einer und 30 Minuten, abhängig von der Komplexität. Man kann den Fortschritt in Echtzeit verfolgen. Sobald eine Aufgabe abgeschlossen ist, speichert Codex seine Änderungen in seiner Umgebung. Nachweise seiner Aktionen wie Terminal-Protokolle und Testergebnisse werden bereitgestellt, um jeden Schritt während der Aufgabenerledigung verfolgen zu können. Man kann die Ergebnisse überprüfen, weitere Überarbeitungen anfordern, einen GitHub-Pull-Request öffnen oder die Änderungen direkt in die eigene lokale Umgebung integrieren.

Die Umgebung von Codex lässt sich so konfigurieren, dass sie der tatsächlichen Entwicklungsumgebung möglichst genau entspricht. Codex funktioniert dann am besten, wenn er mit gut konfigurierten Entwicklungsumgebungen, zuverlässigen Test-Setups und klarer Dokumentation ausgestattet ist. Er lässt sich durch AGENTS.md-Dateien im Repository zusätzlich steuern, in denen Anweisungen zur Navigation oder zu Testbefehlen enthalten sind. Codex kann mehrere Aufgaben gleichzeitig erledigen, während man auf dem Rechner und im Browser an anderen Dingen arbeitet.

Anwendungsbereiche

Codex kann für eine Vielzahl von Aufgaben im Software-Engineering eingesetzt werden. Dazu gehören das Schreiben neuer Features, das Beantworten von Fragen zur Codebasis, das Beheben von Fehlern und das Vorschlagen von Pull-Requests zur Überprüfung vor einem Merge.

Für interne Teams bei OpenAI kommt Codex bereits täglich zum Einsatz, um zum Beispiel wiederkehrende, klar definierte Aufgaben wie Refactoring, Umbenennungen und das Schreiben von Tests auszulagern.

Mit Codex lassen sich auch automatisch neue Funktionen konzipieren (Scaffolding), Komponenten verbinden oder Dokumentation entwerfen. Erste Tester nutzen Codex bereits, um die Feature-Entwicklung zu beschleunigen, Probleme zu debuggen, Tests zu schreiben und auszuführen sowie um große Codebasen zu refaktorieren. Auch kleine, wiederkehrende Aufgaben wie die Verbesserung der Testabdeckung oder die Behebung von Integrationsfehlern lassen sich beschleunigen. Codex kann auch als nützliches Referenzwerkzeug dienen, um unbekannte Teile des Codes zu verstehen.

Ziel ist, dass KI-Agenten wie Codex als „virtuelle Teamkollegen“ agieren, die Aufgaben übernehmen, die Menschen Stunden oder sogar Tage kosten würden. Die Entwicklung geht in Richtung eines asynchronen Multi-Agenten-Workflows.

Sicherheit

Beim Design von Codex wurde laut OpenAI großer Wert auf Sicherheit und Transparenz gelegt. Nutzer können zum Beispiel die Arbeit von Codex anhand von Zitaten, Terminal-Protokollen und Testergebnissen kontrollieren. Wenn der Agent unsicher ist oder auf Testfehler stößt, teilt er das ausdrücklich mit. Nutzer können auf dieser Grundlage fundierte Entscheidungen treffen. Nach wie vor ist es aber unerlässlich, den gesamten vom Agenten generierten Code manuell zu prüfen und zu validieren, bevor er integriert und ausgeführt wird.

Ebenfalls zur Sicherheit beitragen soll die Isolierung der Ausführungsumgebung. Codex arbeitet vollständig in einem sicheren, isolierten Container in der Cloud. Während der Ausführung von Aufgaben ist der Internetzugang deaktiviert Die Interaktion des Agenten ist auf den Code beschränkt, der explizit über GitHub-Repositories bereitgestellt wird, sowie auf vordefinierte Abhängigkeiten, die vom Benutzer konfiguriert wurden. Der Agent kann keine externen Websites, APIs oder andere Dienste aufrufen.

Zudem soll der Missbrauch von KI-gesteuerten Software-Engineering-Werkzeugen verhindert werden. Codex wurde trainiert, Anfragen zur Entwicklung von Malware zu identifizieren und abzulehnen, während legitime, aber potenziell sensible Aufgaben wie zum Beispiel Low-Level-Kernel-Entwicklung weiterhin unterstützt werden.

Codex CLI

Zusätzlich zum Cloud-basierten Agenten hat OpenAI auch Codex CLI veröffentlicht, einen leichtgewichtigen Open-Source-Coding-Agenten, der direkt im Terminal läuft der Nutzer läuft. Er bringt die Fähigkeiten von Modellen wie o3 und o4-mini in den lokalen Workflow, um Aufgaben schneller zu erledigen. Es gibt eine kleinere Version von codex-1 für Codex CLI, die auf o4-mini basiert. Das neue Modell unterstützt schnellere Workflows im CLI und ist für Code-Q&A und -Bearbeitung mit geringen Latenzen optimiert, behält aber die Stärken bei der Befolgung von Anweisungen und im Stil bei.

Der Zugriff auf Codex CLI wurde vereinfacht; man kann sich jetzt einfach mit dem persönlichen ChatGPT-Konto anmelden, anstatt API-Tokens manuell zu konfigurieren.

Verfügbarkeit und Kosten

Codex ist derzeit für Nutzer von ChatGPT Pro, Enterprise und Team weltweit verfügbar. Die Unterstützung für Plus- und Edu-Benutzer ist für die nahe Zukunft geplant. In den ersten Wochen haben Nutzer großzügigen Zugriff ohne zusätzliche Kosten. Danach wird ein Zugriff mit Limits und flexiblen Preisoptionen eingeführt.

Für Entwickler, die das Modell codex-mini-latest über die API nutzen möchten, beträgt der Preis 1,50 US-Dollar pro einer Million Eingabe-Token und 6 US Dollar pro einer Million Ausgabe-Token mit einem Rabatt von 75 Prozent für Prompt-Caching.

Was denkt Hardwarewartung 24?

Aus unserer Sicht ist die Einführung von Codex natürlich ein strategisch nachvollziehbarer und durchaus nötiger Schritt, um die immer stärker umkämpfte Gruppe von Softwareentwicklern und Enterprise-Kunden zu adressieren. OpenAI erkennt mit Codex grundsätzlich richtig, dass der nachhaltige Einzug generativer KI in den Unternehmensbereich vorrangig über die Entwickler-Community läuft – schließlich sind Entwickler jene Zielgruppe, über die KI langfristig in echte, produktive Use-Cases gelangt.

Dennoch fragen wir uns, ob dieser Schritt möglicherweise nicht inzwischen etwas verspätet kommt: Tools wie GitHub Copilot (Microsoft) haben sich bereits seit über zwei Jahren fest etabliert und sind tief verwurzelt in den täglichen Workflows zahlreicher Entwicklerteams. Google mit Gemini und Anthropic mit ihren Sonet-Modellen holen gleichzeitig enorm auf und bieten wachsende Attraktivität für anspruchsvolle Enterprise-Nutzer. Während der Codex-Agent zwar grundsätzlich innovativ klingt, müssen wir kritisch hinterfragen, ob OpenAI hier tatsächlich noch echten Zusatznutzen bieten kann oder ob sie den Zug in Richtung Developer- und Enterprise-Integration nicht bereits verpasst haben.

Hinzu kommt: Viele angekündigte Funktionen – wie die isolierte Sandbox-Umgebung in der Cloud, Pull-Request-Erstellung und lokale CLI-Versionen – mögen auf dem Papier überzeugend klingen, letztlich scheitert jedoch auch Codex am zentralen Schwachpunkt aller generativen KI-Technologien: mangelnde Determinismus und unausweichliche Notwendigkeit manueller Code-Prüfung. Selbst wenn OpenAI die Sicherheitsmaßnahmen und Transparenzversprechen einhält, bleibt Codex in der Praxis trotzdem kurzfristig primär ein Assistenzwerkzeug, das den Aufwand qualitativ anspruchsvoller Validierungs- und Kontrollprozesse nicht reduzieren wird – eine Schwäche, die etablierte Lösungen wie GitHub Copilot oder spezialisierte Developer-Plattformen bereits seit langem adressieren und teilweise besser bewältigen.

Zudem sind wir skeptisch hinsichtlich der Frage, ob OpenAI mit Codex wirklich den Nerv der zahlenden Enterprise-Kunden trifft oder primär wieder eher Consumer-orientierte Ansätze verfolgt. Noch immer wirkt es, als würde OpenAI an mehreren Fronten gleichzeitig kämpfen und das langfristige Verständnis dafür fehlen, wie dringend Softwareentwicklungs- und Enterprise-Nutzer in Richtung Workflow-Integration, Zuverlässigkeit und Sicherheit denken. Ein kleiner Vorsprung bei Leistungsbenchmarks reicht aus unserer Sicht langfristig keineswegs aus; etablierte Tools gewinnen primär durch enge Verankerung und Vertrautheit in bestehenden Umgebungen.

Letztlich bleibt Codex zwar grundsätzlich ein sinnvolles Angebot, könnte jedoch schlichtweg zu spät auf den Markt kommen, um nachhaltig relevanten Marktanteil und Loyalität zu gewinnen. Wenn OpenAI hier nicht schnell und konsequent zeigt, dass sie ernsthaft auf echten Entwicklerbedarf eingehen und nicht nur theoretische KI-Funktionen vermarkten, könnte der Abstand zu Wettbewerbslösungen uneinholbar groß werden. Aktuell erscheint es uns durchaus realistisch, dass OpenAI diesen Zug in Richtung langfristig erfolgreicher Integration in professionelle Entwicklungsumgebungen und Enterprise-Workflows bereits verpasst hat.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

OpenAI bringt mit Codex einen KI-Agenten für die Softwareentwicklung

Ihr Wartungsspezialist im DataCenter

So funktioniert Codex

Anwendungsbereiche

Sicherheit

Codex CLI

Verfügbarkeit und Kosten

Was denkt Hardwarewartung 24?

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Über den Autor: Christian Kunz

OpenAI bringt mit Codex einen KI-Agenten für die Softwareentwicklung

Ihr Wartungsspezialist im DataCenter

So funktioniert Codex

Anwendungsbereiche

Sicherheit

Codex CLI

Verfügbarkeit und Kosten

Was denkt Hardwarewartung 24?

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Claude Fable 5: Das beste KI-Modell der Welt – nur gefiltert

Server-Ersatzteile – Verfügbarkeit 2026: Diese Modelle sollten IT-Verantwortliche jetzt prüfen

LLMs vs. World Models: Welcher Ansatz eignet sich für welches Problem?

Über den Autor: Christian Kunz