GDPval: OpenAI bringt Benchmark zum Bewerten von echten Arbeitsleistungen

KI nimmt immer mehr Einfluss auf verschiedene Berufe. Dabei gehen die Fähigkeiten von KI-Modellen inzwischen weit über das Erstellen von Code oder das Schreiben von Texten hinaus. Viele weitere Tätigkeiten und Ingenieursleistungen lassen sich mehr und mehr durch KI automatisieren und sogar teilweise ersetzen. Bisher fehlte allerdings ein geeignetes Messverfahren, um die Leistung von KI Modellen im Hinblick auf reale Arbeitsleistungen zu bewerten. Zu diesem Zweck hat OpenAI jetzt GdPval entwickelt, einen Benchmark, der in der Lage ist, die Leistung von KI Modellen in verschiedenen Berufen und Tätigkeiten zu bewerten und einzustufen.

Der Name leitet sich vom Konzept des Bruttoinlandsprodukts (engl. GDP) ab, weil die getesteten Aufgaben aus Berufen stammen, die in den für das GDP relevantesten Branchen angesiedelt sind. Ziel ist es, den Fortschritt von KI-Modellen bei wirtschaftlich wertvollen Aufgaben transparent zu machen. Die Evaluierungen sollen dazu beitragen, Gespräche über die Verbesserung von KI auf Fakten statt auf Vermutungen zu stützen.

Im Gegensatz zu früheren KI-Evaluierungen, die sich oft auf akademische Tests oder spezifische Bereiche wie Softwareentwicklung konzentrierten, misst GDPval die Leistung bei Aufgaben, die direkt aus der Wissensarbeit von Fachleuten in verschiedenen Berufen und Sektoren stammen. Das soll ein Bild davon vermitteln, wie Modelle Menschen bei ihrer täglichen Arbeit unterstützen könnten.

Aufbau und Inhalt von GDPval

Die erste Version von GDPval umfasst 1.320 spezialisierte Aufgaben aus 44 Berufen, die sich auf die 9 umsatzstärksten Branchen der US-Wirtschaft verteilen. Ein kleinerer Teil davon, 220 Aufgaben, ist als Open-Source-Datensatz verfügbar. Die Aufgaben wurden von Fachleuten mit durchschnittlich über 14 Jahren Berufserfahrung entwickelt und geprüft. Jede Aufgabe basiert auf realen Arbeitsergebnissen wie juristischen Schriftsätzen, Bauplänen oder Pflegeplänen. Im Unterschied zu einfachen Textaufforderungen enthalten die Aufgaben Referenzdateien und Kontext; die erwarteten Ergebnisse können Dokumente, Präsentationen, Diagramme oder Tabellen sein.

Die Auswahl der Berufe erfolgte in einem mehrstufigen Prozess. Zuerst wurden die neun Branchen identifiziert, die über 5 Prozent zum US-GDP beitragen. Innerhalb jeder Branche wurden dann die fünf Berufe ausgewählt, die den größten Anteil an den Gesamtlöhnen haben und überwiegend aus Wissensarbeit bestehen. Ein Beruf wurde mit „überwiegend Wissensarbeit" eingestuft, wenn mindestens 60 Prozent seiner Tätigkeiten laut der O*NET-Datenbank keine körperliche oder manuelle Arbeit erfordern. So wurden 44 Berufe aus Branchen wie dem Gesundheits- und Sozialwesen, dem verarbeitenden Gewerbe, Finanzdienstleistungen, Information und dem juristischen Bereich ausgewählt.

Zur Erstellung des Datensatzes arbeiteten die Organisatoren mit erfahrenen Fachleuten aus jedem Beruf zusammen, um repräsentative Aufgaben zu entwickeln. Jede Aufgabe durchlief einen mehrstufigen Überprüfungsprozess mit durchschnittlich fünf Prüfungsrunden, um sicherzustellen, dass sie realistisch, durchführbar und klar bewertbar ist.

Das folgende Diagramm zeigt ausgewählte Berufsfelder und Berufe, die von GDPval berücksichtigt werden:

Erfahren Sie mehr

Ihr Wartungsspezialist im DataCenter

Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Bewertung der Modelle und erste Ergebnisse

Um die Leistung von KI-Modellen zu bewerten, vergleichen erfahrene Fachleute, sogenannte „Grader", die von Modellen erstellten Ergebnisse blind mit den von Menschen erstellten Lösungen. Das bedeutet, sie wissen nicht, welches Ergebnis von einer KI und welches von einem Menschen stammt. Die Grader bewerten, ob die KI-Ergebnisse besser, gleich gut oder schlechter sind als die menschlichen Vorlagen. Zusätzlich wurden detaillierte Bewertungsrichtlinien erstellt, um die Konsistenz der Benotung zu erhöhen. Es wurde auch ein KI-System als „automatisierter Grader" entwickelt, das schätzen soll, wie menschliche Experten ein Ergebnis bewerten würden. Das System wird jedoch noch als experimentell eingestuft und ersetzt nicht die menschlichen Bewerter.

Erste Ergebnisse zeigen, dass die Leistung führender KI-Modelle sich der Qualität von menschlichen Experten annähert. Bei einer Bewertung von 220 Aufgaben wurden die Ergebnisse mehrerer Modelle (darunter GPT-4o, GPT-5, Claude Opus 4.1 und Gemini 2.5 Pro) mit von Experten erstellten Lösungen verglichen. Das Modell Claude Opus 4.1 wurde in knapp der Hälfte der Aufgaben als gleich gut oder besser als die menschliche Lösung bewertet. Die Leistung der Modelle hat sich dabei über die Zeit verbessert; so hat sich die Leistung von GPT-4o (Frühjahr 2024) zu GPT-5 (Sommer 2025) mehr als verdoppelt. Ein weiterer Aspekt ist, dass Modelle die Aufgaben etwa 100-mal schneller und kostengünstiger erledigen können, wobei diese Zahlen nur die reine Rechenzeit und API-Kosten abbilden und nicht den menschlichen Aufwand für Überprüfung und Iteration berücksichtigen.

Einschränkungen und Ausblick

GDPval ist ein erster Schritt und weist Einschränkungen auf. Die aktuelle Version bewertet nur einmalige Aufgaben („one-shot") und erfasst somit keine Prozesse, bei denen ein Modell über mehrere Entwürfe hinweg Kontext aufbauen oder sich verbessern muss, wie es bei der Überarbeitung eines Dokuments nach Kundenfeedback der Fall wäre. Aufgaben in der realen Welt sind zudem oft nicht klar definiert. Zukünftige Versionen von GDPval sollen daher um weitere Berufe, Branchen und Aufgabentypen erweitert werden. Geplant sind zudem interaktive Arbeitsabläufe und kontextreichere Aufgaben, um die Komplexität von Wissensarbeit besser abzubilden.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

GDPval: OpenAI bringt Benchmark zum Bewerten von echten Arbeitsleistungen

Aufbau und Inhalt von GDPval

Ihr Wartungsspezialist im DataCenter

Bewertung der Modelle und erste Ergebnisse

Einschränkungen und Ausblick

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

Über den Autor: Christian Kunz

GDPval: OpenAI bringt Benchmark zum Bewerten von echten Arbeitsleistungen

Aufbau und Inhalt von GDPval

Ihr Wartungsspezialist im DataCenter

Bewertung der Modelle und erste Ergebnisse

Einschränkungen und Ausblick

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Weitere Artikel

‚Code Red‘: Warum Sam Altman ‚Alarmstufe Rot‘ bei OpenAI ausgerufen hat

Nvidias 100-Milliarden-Investition in OpenAI noch nicht in trockenen Tüchern

KI-Arbeitsmarkt 2025: MIT-Studie prognostiziert 11,7% Jobautomatisierung in den USA bereits heute möglich

Über den Autor: Christian Kunz