Google hat neue KI-Modelle aus der Gemma-Reihe veröffentlicht. Die Gemma 4-Familie repräsentiert die neueste Generation offener KI-Modelle. Erstmals in der Geschichte der Modellreihe werden diese unter der Open-Source-Lizenz Apache 2.0 veröffentlicht.
Eigenschaften und Weiterentwicklungen
Gemma 4 bringt deutliche architektonische und funktionale Fortschritte, welche die Modelle besonders für komplexe und autonome Aufgaben qualifizieren.
Hier die wichtigsten Änderungen im Überblick:
- Open-Source-Lizenz: Die Gemma 4-Modelle werden erstmals unter der offenen Apache 2.0-Lizenz veröffentlicht.
- Integrierter Thinking-Modus: Über einen konfigurierbaren Reasoning-Modus können die Modelle komplexe Probleme schrittweise durchdenken, bevor sie eine finale Antwort generieren.
- Erweiterte Multimodalität: Alle Modelle verarbeiten nun Text, Bilder sowie Videos. Die E2B- und E4B-Modelle unterstützen zusätzlich native Audioeingaben für Echtzeitverarbeitung.
- Agenten-Fähigkeiten und Function Calling: Die Modelle bieten eine native Unterstützung für strukturierte Werkzeugnutzung (Function Calling). Das verbessert die Entwicklung autonomer Agenten und mehrstufiger Workflows.
- Deutlich vergrößertes Kontextfenster: Die kompakten Modelle (E2B, E4B) fassen bis zu 128.000 Token, während die größeren Modelle (26B, 31B) ein Kontextfenster von bis zu 256.000 Token besitzen.
- Architektonische Vielfalt: Neben Modellen mit dichter (Dense) Architektur gibt es ein effizientes Mixture-of-Experts (MoE) Modell, das durch die Aktivierung von nur 3,8 Milliarden (von insgesamt 25,2 Milliarden) Parametern eine extrem schnelle Inferenz bietet.
- Per-Layer Embeddings (PLE): Die kleinen Modelle (E2B, E4B) nutzen pro Decoder-Schicht eigene kleine Embeddings, um die Parametereffizienz speziell für On-Device-Anwendungen wie Smartphones und IoT-Geräte zu maximieren.
- Shared Key-Valus-Cache: Diese neue Optimierung reduziert den Rechenaufwand und Speicherbedarf bei der Inferenz deutlich, indem spätere Schichten die Key-Value-Zustände früherer Schichten wiederverwenden.
- Native System-Prompt-Unterstützung: Gemma 4 führt eine native Unterstützung für die System-Rolle ein. Dadurch lassen sich Konversationen besser strukturieren und kontrollieren.
- Umfassende Mehrsprachigkeit: Die Modelle bieten Out-of-the-Box-Unterstützung für über 35 Sprachen und sind auf über 140 Sprachen trainiert. Damit können sie kulturelle Kontexte verstehen.
Das deutlich erweiterte Kontextfenster fasst nun bis zu 128.000 Token bei den kompakten Modellen und bis zu 256.000 Token bei den größeren Modellen. Diese Kapazität erlaubt beispielsweise die Analyse ganzer Codebasen in einem einzigen Durchlauf.
Abbildung 1: Kontextfenster von Gemma 4 26B-A4B im Vergleich mit anderen KI-Modellen. Quelle: Artificial Analysis
Abgerundet werden die Fähigkeiten durch eine umfassende Mehrsprachigkeit, die über 140 Sprachen nativ unterstützt.
Verschiedene Modelle für verschiedene Einsatzbereiche
Die Gemma 4-Modelle decken durch ihre unterschiedlichen Größen ein breites Spektrum an Einsatzszenarien ab.
Die kompakten E2B- und E4B-Modelle sind speziell für mobile Geräte und das Internet of Things (IoT) wie Smartphones, Raspberry Pis oder Jetson Nanos konzipiert. Sie können komplett offline und mit nahezu null Latenz direkt auf dem Gerät per Edge-Processing betrieben werden und eignen sich dank nativer Audio- und Bildunterstützung hervorragend für Echtzeitanwendungen wie sprachgesteuerte Assistenten oder Transkriptionen.
Im Gegensatz dazu zielen die größeren Modelle, das 26B A4B (MoE) und das 31B, auf leistungsstarke Endanwender-PCs, Workstations und Consumer-GPUs ab. Sie bringen KI auf Expertenniveau lokal auf den eigenen Rechner: ideal für anspruchsvolle Entwicklerwerkzeuge, Programmierassistenten und autonome agentenbasierte Workflows. So lassen sich selbst hochkomplexe Logik- und Programmieraufgaben lokal bearbeiten, ohne dass sensible Daten in eine externe Cloud hochgeladen werden müssen.
Die Modelle im Vergleich
Die Gemma 4-Familie bietet sowohl dichte Architekturen (Dense) als auch ein Mixture-of-Experts (MoE) Modell. Durch diese Vielfalt können die Modelle auf unterschiedlichster Hardware effizient laufen, vom Smartphone und IoT-Gerät bis hin zu leistungsstarken PCs und Servern.
Die „E"-Modelle (Effective) nutzen spezielle „Per-Layer Embeddings" für maximale Effizienz auf Edge-Geräten. Das „A"-Modell (Active) aktiviert während der Inferenz nur einen Bruchteil seiner Parameter (3,8 Milliarden von 25,2 Milliarden). Damit läuft es fast so schnell wie ein 4B-Modell, bietet aber die Intelligenz eines deutlich größeren Modells an.
| Eigenschaft | Gemma 4 E2B | Gemma 4 E4B | Gemma 4 26B A4B (MoE) | Gemma 4 31B (Dense) |
| Parameter | 2,3 Milliarden effektiv (5,1 Milliarden gesamt) | 4,5 Milliarden effektiv (8 Milliarden gesamt) | 25,2B gesamt (3,8 Milliarden aktiv) | 30,7 Milliarden gesamt |
| Architektur | Dense | Dense | Mixture-of-Experts | Dense |
| Kontextfenster | 128.000 Token | 128.000 Token | 256.000 Token | 256.000 Token |
| Unterstützte Modalitäten | Text, Bild, Audio, Video | Text, Bild, Audio, Video | Text, Bild, Video | Text, Bild, Video |
| Zielumgebung / Fokus | Mobile & IoT, Edge-Geräte | Mobile & IoT, Edge-Geräte | Consumer GPUs, Workstations (schnelle Inferenz) | Consumer GPUs, Workstations (höchste Qualität) |
Tabelle 1: Die verschiedenen Modelle der Gemma-4-Familie im Vergleich
Hinweis: Alle Modelle können Videos als eine Sequenz von Bildern (Frames) verarbeiten.
Benchmark-Ergebnisse
Gemma 4 wurde in einer Vielzahl von Disziplinen evaluiert und zeigt, insbesondere durch den neuen Thinking-Modus, massive Leistungssprünge im Vergleich zur Vorgängergeneration Gemma 3. Hier einige Beispiele:
| Benchmark (Metrik) | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (Referenz) |
| MMLU Pro (Wissen & Logik) | 85,2 % | 82,6 % | 69,4 % | 60,0 % | 67,6 % |
| AIME 2026 (Mathematik, keine Tools) | 89,2 % | 88,3 % | 42,5 % | 37,5 % | 20,8 % |
| LiveCodeBench v6 (Programmierung) | 80,0 % | 77,1 % | 52,0 % | 44,0 % | 29,1 % |
| GPQA Diamond (Wissenschaftl. Wissen) | 84,3 % | 82,3 % | 58,6 % | 43,4 % | 42,4 % |
| MMMU Pro (Multimodales Schlussfolgern) | 76,9 % | 73,8 % | 52,6 % | 44,2 % | 49,7 % |
Tabelle 2: Leistung der Gemma-4-Modelle bei ausgewählten Benchmarks
Im Vergleich mit anderen Open-Source-Modellen zeigt sich die Effizienz der Gemma-4-Modelle: Mit einer vergleichsweise geringen Anzahl an Parametern erreichen sie einen sehr hohen Elo-Score. Dieser Score bestimmt sich aus dem direkten Wettbewerb der Modelle untereinander in verschiedenen Disziplinen:
Abbildung 2: Gemma 4 26B-A4B Token-Size und Elo Score im Vergleich mit anderen Open-Source- / Open-Weights-KI-Modellen
Endlich echte Open-Source-Lizenz
Ein wichtiges Merkmal der Gemma 4-Familie ist das neue Lizenzmodell: Erstmals in der Geschichte dieser Modellreihe veröffentlicht Google DeepMind die Modelle unter der echten Open-Source-Lizenz Apache 2.0. Dies bedeutet, dass die Modellgewichte sowohl in den vortrainierten als auch in den auf Anweisungen optimierten Varianten völlig frei zugänglich sind.
Entwickler, Forscher und Unternehmen erhalten dadurch eine transparente und vertrauenswürdige Basis und genießen maximale Flexibilität, weil sie die Modelle kostenlos nutzen, tiefgreifend anpassen und für eigene – auch kommerzielle – Anwendungen weiterverbreiten können.
Verfügbarkeit der Modelle
Entwickler können die Modelle lokal auf ihrer eigenen Hardware ausführen und nahtlos in ihre Workflows integrieren. Die Modellgewichte stehen zum Download auf bekannten Plattformen wie Hugging Face, Kaggle, Ollama und LM Studio sowie als Docker-Container bereit.
Für das Fine-Tuning und die Bereitstellung in der Produktion werden populäre Frameworks und Cloud-Dienste wie Keras, JAX, Google AI Edge, Vertex AI und die Google Kubernetes Engine unterstützt. Wer die Modelle zunächst im Browser testen möchte, kann dies über das Google AI Studio tun.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
Wenn KI uns nach dem Mund redet: Warum Chatbots gefährlich schmeicheln und Bilder halluzinieren
Über diese EpisodeIn dieser Solo-Folge präsentiert Christian die wichtigsten KI-News der Woche – mit Schwerpunkt auf zwei erschütternden Stanford-Studien
Der Mirage-Effekt: Wenn KIs bei der Bildanalyse Fata Morganas sehen
KI-Systeme könnten bei der Bilderkennung viel schlechter sein, als es Ergebnisse von Benchmarks vorgeben. Der Grund ist der sogenannte Mirage-Effekt.
Umfrage: Drei Viertel der Amerikaner sind bei KI-Antworten skeptisch
Eine aktuelle Umfrage aus den USA zeigt eine nach wie vor hohe Skepsis vieler Menschen gegenüber dem Einsatz von KI.