Geld zurück GarantieErfahrungen & Bewertungen zu Hardwarewartung.com eine Marke von Change-IT
  • Gemma 4

Google Gemma 4 ist da: Endlich richtiges Source für die KI-Modelle

Von |2026-04-03T17:54:56+00:003.4.2026|

Google hat neue KI-Modelle aus der Gemma-Reihe veröffentlicht. Die Gemma 4-Familie repräsentiert die neueste Generation offener KI-Modelle. Erstmals in der Geschichte der Modellreihe werden diese unter der Open-Source-Lizenz Apache 2.0 veröffentlicht.

Eigenschaften und Weiterentwicklungen

Gemma 4 bringt deutliche architektonische und funktionale Fortschritte, welche die Modelle besonders für komplexe und autonome Aufgaben qualifizieren.

Hier die wichtigsten Änderungen im Überblick:

  • Open-Source-Lizenz: Die Gemma 4-Modelle werden erstmals unter der offenen Apache 2.0-Lizenz veröffentlicht.
  • Integrierter Thinking-Modus: Über einen konfigurierbaren Reasoning-Modus können die Modelle komplexe Probleme schrittweise durchdenken, bevor sie eine finale Antwort generieren.
  • Erweiterte Multimodalität: Alle Modelle verarbeiten nun Text, Bilder sowie Videos. Die E2B- und E4B-Modelle unterstützen zusätzlich native Audioeingaben für Echtzeitverarbeitung.
  • Agenten-Fähigkeiten und Function Calling: Die Modelle bieten eine native Unterstützung für strukturierte Werkzeugnutzung (Function Calling). Das verbessert die Entwicklung autonomer Agenten und mehrstufiger Workflows.
  • Deutlich vergrößertes Kontextfenster: Die kompakten Modelle (E2B, E4B) fassen bis zu 128.000 Token, während die größeren Modelle (26B, 31B) ein Kontextfenster von bis zu 256.000 Token besitzen.
  • Architektonische Vielfalt: Neben Modellen mit dichter (Dense) Architektur gibt es ein effizientes Mixture-of-Experts (MoE) Modell, das durch die Aktivierung von nur 3,8 Milliarden (von insgesamt 25,2 Milliarden) Parametern eine extrem schnelle Inferenz bietet.
  • Per-Layer Embeddings (PLE): Die kleinen Modelle (E2B, E4B) nutzen pro Decoder-Schicht eigene kleine Embeddings, um die Parametereffizienz speziell für On-Device-Anwendungen wie Smartphones und IoT-Geräte zu maximieren.
  • Shared Key-Valus-Cache: Diese neue Optimierung reduziert den Rechenaufwand und Speicherbedarf bei der Inferenz deutlich, indem spätere Schichten die Key-Value-Zustände früherer Schichten wiederverwenden.
  • Native System-Prompt-Unterstützung: Gemma 4 führt eine native Unterstützung für die System-Rolle ein. Dadurch lassen sich Konversationen besser strukturieren und kontrollieren.
  • Umfassende Mehrsprachigkeit: Die Modelle bieten Out-of-the-Box-Unterstützung für über 35 Sprachen und sind auf über 140 Sprachen trainiert. Damit können sie kulturelle Kontexte verstehen.

Das deutlich erweiterte Kontextfenster fasst nun bis zu 128.000 Token bei den kompakten Modellen und bis zu 256.000 Token bei den größeren Modellen. Diese Kapazität erlaubt beispielsweise die Analyse ganzer Codebasen in einem einzigen Durchlauf.

Gemma 4 26B-A4B: Kontextfenster im Vergleich mit anderen KI-Modellen

Abbildung 1: Kontextfenster von Gemma 4 26B-A4B im Vergleich mit anderen KI-Modellen. Quelle: Artificial Analysis

Abgerundet werden die Fähigkeiten durch eine umfassende Mehrsprachigkeit, die über 140 Sprachen nativ unterstützt.

Verschiedene Modelle für verschiedene Einsatzbereiche

Die Gemma 4-Modelle decken durch ihre unterschiedlichen Größen ein breites Spektrum an Einsatzszenarien ab.

Die kompakten E2B- und E4B-Modelle sind speziell für mobile Geräte und das Internet of Things (IoT) wie Smartphones, Raspberry Pis oder Jetson Nanos konzipiert. Sie können komplett offline und mit nahezu null Latenz direkt auf dem Gerät per Edge-Processing betrieben werden und eignen sich dank nativer Audio- und Bildunterstützung hervorragend für Echtzeitanwendungen wie sprachgesteuerte Assistenten oder Transkriptionen.

Im Gegensatz dazu zielen die größeren Modelle, das 26B A4B (MoE) und das 31B, auf leistungsstarke Endanwender-PCs, Workstations und Consumer-GPUs ab. Sie bringen KI auf Expertenniveau lokal auf den eigenen Rechner: ideal für anspruchsvolle Entwicklerwerkzeuge, Programmierassistenten und autonome agentenbasierte Workflows. So lassen sich selbst hochkomplexe Logik- und Programmieraufgaben lokal bearbeiten, ohne dass sensible Daten in eine externe Cloud hochgeladen werden müssen.

Die Modelle im Vergleich

Die Gemma 4-Familie bietet sowohl dichte Architekturen (Dense) als auch ein Mixture-of-Experts (MoE) Modell. Durch diese Vielfalt können die Modelle auf unterschiedlichster Hardware effizient laufen, vom Smartphone und IoT-Gerät bis hin zu leistungsstarken PCs und Servern.

Die „E"-Modelle (Effective) nutzen spezielle „Per-Layer Embeddings" für maximale Effizienz auf Edge-Geräten. Das „A"-Modell (Active) aktiviert während der Inferenz nur einen Bruchteil seiner Parameter (3,8 Milliarden von 25,2 Milliarden). Damit läuft es fast so schnell wie ein 4B-Modell, bietet aber die Intelligenz eines deutlich größeren Modells an.

Tabelle 1: Die verschiedenen Modelle der Gemma-4-Familie im Vergleich

Hinweis: Alle Modelle können Videos als eine Sequenz von Bildern (Frames) verarbeiten.

Benchmark-Ergebnisse

Gemma 4 wurde in einer Vielzahl von Disziplinen evaluiert und zeigt, insbesondere durch den neuen Thinking-Modus, massive Leistungssprünge im Vergleich zur Vorgängergeneration Gemma 3. Hier einige Beispiele:

Tabelle 2: Leistung der Gemma-4-Modelle bei ausgewählten Benchmarks

Im Vergleich mit anderen Open-Source-Modellen zeigt sich die Effizienz der Gemma-4-Modelle: Mit einer vergleichsweise geringen Anzahl an Parametern erreichen sie einen sehr hohen Elo-Score. Dieser Score bestimmt sich aus dem direkten Wettbewerb der Modelle untereinander in verschiedenen Disziplinen:

Gemma 4: Modelle Elo Score im Vergleich mit anderen Open-Source-Modellen

Abbildung 2: Gemma 4 26B-A4B Token-Size und Elo Score im Vergleich mit anderen Open-Source- / Open-Weights-KI-Modellen

Endlich echte Open-Source-Lizenz

Ein wichtiges Merkmal der Gemma 4-Familie ist das neue Lizenzmodell: Erstmals in der Geschichte dieser Modellreihe veröffentlicht Google DeepMind die Modelle unter der echten Open-Source-Lizenz Apache 2.0. Dies bedeutet, dass die Modellgewichte sowohl in den vortrainierten als auch in den auf Anweisungen optimierten Varianten völlig frei zugänglich sind.

Entwickler, Forscher und Unternehmen erhalten dadurch eine transparente und vertrauenswürdige Basis und genießen maximale Flexibilität, weil sie die Modelle kostenlos nutzen, tiefgreifend anpassen und für eigene – auch kommerzielle – Anwendungen weiterverbreiten können.

Verfügbarkeit der Modelle

Entwickler können die Modelle lokal auf ihrer eigenen Hardware ausführen und nahtlos in ihre Workflows integrieren. Die Modellgewichte stehen zum Download auf bekannten Plattformen wie Hugging Face, Kaggle, Ollama und LM Studio sowie als Docker-Container bereit.

Für das Fine-Tuning und die Bereitstellung in der Produktion werden populäre Frameworks und Cloud-Dienste wie Keras, JAX, Google AI Edge, Vertex AI und die Google Kubernetes Engine unterstützt. Wer die Modelle zunächst im Browser testen möchte, kann dies über das Google AI Studio tun.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Weitere Artikel

Über den Autor:

Christian Kunz ist ein bekannter Experte für SEO, Suchmaschinen und die Optimierung für LLMs. Er war außerdem Koordinator für die IT eines Unternehmensbereichs in einem deutschen Internet-Konzern sowie IT-Projektmanager. LinkedIn-Profil von Christian: Christian Kunz
Nach oben