KI nimmt immer mehr Einfluss auf verschiedene Berufe. Dabei gehen die Fähigkeiten von KI-Modellen inzwischen weit über das Erstellen von Code oder das Schreiben von Texten hinaus. Viele weitere Tätigkeiten und Ingenieursleistungen lassen sich mehr und mehr durch KI automatisieren und sogar teilweise ersetzen. Bisher fehlte allerdings ein geeignetes Messverfahren, um die Leistung von KI Modellen im Hinblick auf reale Arbeitsleistungen zu bewerten. Zu diesem Zweck hat OpenAI jetzt GdPval entwickelt, einen Benchmark, der in der Lage ist, die Leistung von KI Modellen in verschiedenen Berufen und Tätigkeiten zu bewerten und einzustufen.
Der Name leitet sich vom Konzept des Bruttoinlandsprodukts (engl. GDP) ab, weil die getesteten Aufgaben aus Berufen stammen, die in den für das GDP relevantesten Branchen angesiedelt sind. Ziel ist es, den Fortschritt von KI-Modellen bei wirtschaftlich wertvollen Aufgaben transparent zu machen. Die Evaluierungen sollen dazu beitragen, Gespräche über die Verbesserung von KI auf Fakten statt auf Vermutungen zu stützen.
Im Gegensatz zu früheren KI-Evaluierungen, die sich oft auf akademische Tests oder spezifische Bereiche wie Softwareentwicklung konzentrierten, misst GDPval die Leistung bei Aufgaben, die direkt aus der Wissensarbeit von Fachleuten in verschiedenen Berufen und Sektoren stammen. Das soll ein Bild davon vermitteln, wie Modelle Menschen bei ihrer täglichen Arbeit unterstützen könnten.
Aufbau und Inhalt von GDPval
Die erste Version von GDPval umfasst 1.320 spezialisierte Aufgaben aus 44 Berufen, die sich auf die 9 umsatzstärksten Branchen der US-Wirtschaft verteilen. Ein kleinerer Teil davon, 220 Aufgaben, ist als Open-Source-Datensatz verfügbar. Die Aufgaben wurden von Fachleuten mit durchschnittlich über 14 Jahren Berufserfahrung entwickelt und geprüft. Jede Aufgabe basiert auf realen Arbeitsergebnissen wie juristischen Schriftsätzen, Bauplänen oder Pflegeplänen. Im Unterschied zu einfachen Textaufforderungen enthalten die Aufgaben Referenzdateien und Kontext; die erwarteten Ergebnisse können Dokumente, Präsentationen, Diagramme oder Tabellen sein.
Die Auswahl der Berufe erfolgte in einem mehrstufigen Prozess. Zuerst wurden die neun Branchen identifiziert, die über 5 Prozent zum US-GDP beitragen. Innerhalb jeder Branche wurden dann die fünf Berufe ausgewählt, die den größten Anteil an den Gesamtlöhnen haben und überwiegend aus Wissensarbeit bestehen. Ein Beruf wurde mit „überwiegend Wissensarbeit" eingestuft, wenn mindestens 60 Prozent seiner Tätigkeiten laut der O*NET-Datenbank keine körperliche oder manuelle Arbeit erfordern. So wurden 44 Berufe aus Branchen wie dem Gesundheits- und Sozialwesen, dem verarbeitenden Gewerbe, Finanzdienstleistungen, Information und dem juristischen Bereich ausgewählt.
Zur Erstellung des Datensatzes arbeiteten die Organisatoren mit erfahrenen Fachleuten aus jedem Beruf zusammen, um repräsentative Aufgaben zu entwickeln. Jede Aufgabe durchlief einen mehrstufigen Überprüfungsprozess mit durchschnittlich fünf Prüfungsrunden, um sicherzustellen, dass sie realistisch, durchführbar und klar bewertbar ist.
Das folgende Diagramm zeigt ausgewählte Berufsfelder und Berufe, die von GDPval berücksichtigt werden:
Ihr Wartungsspezialist im DataCenter
Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Bewertung der Modelle und erste Ergebnisse
Um die Leistung von KI-Modellen zu bewerten, vergleichen erfahrene Fachleute, sogenannte „Grader", die von Modellen erstellten Ergebnisse blind mit den von Menschen erstellten Lösungen. Das bedeutet, sie wissen nicht, welches Ergebnis von einer KI und welches von einem Menschen stammt. Die Grader bewerten, ob die KI-Ergebnisse besser, gleich gut oder schlechter sind als die menschlichen Vorlagen. Zusätzlich wurden detaillierte Bewertungsrichtlinien erstellt, um die Konsistenz der Benotung zu erhöhen. Es wurde auch ein KI-System als „automatisierter Grader" entwickelt, das schätzen soll, wie menschliche Experten ein Ergebnis bewerten würden. Das System wird jedoch noch als experimentell eingestuft und ersetzt nicht die menschlichen Bewerter.
Erste Ergebnisse zeigen, dass die Leistung führender KI-Modelle sich der Qualität von menschlichen Experten annähert. Bei einer Bewertung von 220 Aufgaben wurden die Ergebnisse mehrerer Modelle (darunter GPT-4o, GPT-5, Claude Opus 4.1 und Gemini 2.5 Pro) mit von Experten erstellten Lösungen verglichen. Das Modell Claude Opus 4.1 wurde in knapp der Hälfte der Aufgaben als gleich gut oder besser als die menschliche Lösung bewertet. Die Leistung der Modelle hat sich dabei über die Zeit verbessert; so hat sich die Leistung von GPT-4o (Frühjahr 2024) zu GPT-5 (Sommer 2025) mehr als verdoppelt. Ein weiterer Aspekt ist, dass Modelle die Aufgaben etwa 100-mal schneller und kostengünstiger erledigen können, wobei diese Zahlen nur die reine Rechenzeit und API-Kosten abbilden und nicht den menschlichen Aufwand für Überprüfung und Iteration berücksichtigen.
Einschränkungen und Ausblick
GDPval ist ein erster Schritt und weist Einschränkungen auf. Die aktuelle Version bewertet nur einmalige Aufgaben („one-shot") und erfasst somit keine Prozesse, bei denen ein Modell über mehrere Entwürfe hinweg Kontext aufbauen oder sich verbessern muss, wie es bei der Überarbeitung eines Dokuments nach Kundenfeedback der Fall wäre. Aufgaben in der realen Welt sind zudem oft nicht klar definiert. Zukünftige Versionen von GDPval sollen daher um weitere Berufe, Branchen und Aufgabentypen erweitert werden. Geplant sind zudem interaktive Arbeitsabläufe und kontextreichere Aufgaben, um die Komplexität von Wissensarbeit besser abzubilden.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
Fujitsu will Zugang zum Quantencomputing ‘demokratisieren’
Ein besserer Zugang durch die Bündelung von Quantencomputing-Ressourcen ist das Ziel eines neuen Projekts von Fujitsu und SC Ventures, das
Die gigantischen KI-Pläne der Tech-Riesen
Diese Folge steckt voller Meilensteine: KI schlägt Weltspitze – OpenAI- und Google-Systeme dominieren erstmals die Programmier-WM und lösen
Hochtief plant Rechenzentrum in Massivholzbauweise in Herne
Das Bauunternehmen Hochtief plant die Errichtung eines Edge-Rechenzentrums in Herne. Das Projekt soll im FunkenbergQuartier umgesetzt werden, einem neuen Stadtteil