In der Industrie ist Edge AI häufig die bessere Lösung gegenüber KI aus der Cloud. Das hat nicht nur Datenschutzgründe.
Während die Schlagzeilen rund um KI weiter den großen US-Hyperscalern gehören, wandern KI-Workloads in der Realität in die andere Richtung: zurück aus der Cloud, hinein auf eigene Server. Das gilt vor allem für Industrial AI, also den Einsatz von KI in der Industrie.
Der Treiber ist eine Mischung aus regulatorischen Anforderungen, steigenden Cloud-Rechnungen und einer simplen physikalischen Tatsache: Eine Lackieranlage, die mit 800 Teilen pro Stunde läuft, kann nicht auf einen Round-Trip zu einem Rechenzentrum in Frankfurt oder Dublin warten. Parallel dazu sind Open-Source-LLMs wie Llama 4, Qwen3.5 oder Mistral Large 3 inzwischen so leistungsfähig geworden, dass ein gut konfigurierter Server in der Werkshalle mit einer Cloud-API mithält, und das bei voller Datenkontrolle und ohne monatlich wachsende Token-Rechnung. Das ist die Ausgangslage dieser Fallstudie.
Nicht umsonst fordert der Branchenverband bitkom eine Förderung von Industrial AI und eine damit verbundene Fachkräftesicherung in Deutschland.
Warum die Cloud für Fertigungs-KI an Grenzen stößt
Latenz: wenn Millisekunden über Ausschuss entscheiden
In der klassischen Office-IT sind 50 bis 200 Millisekunden Antwortzeit meist kein Problem. Im Browser merkt das niemand. In einer Fertigungslinie sieht das allerdings anders aus. Wenn ein Roboterarm in der Fahrzeug-Lackiererei eine Abweichung von 0,3 Millimetern erkennen muss, zählt jede Millisekunde. Cloud-basierte KI-Inferenz mit 50 bis 200 Millisekunden plus Bildtransferzeit reicht hier schlicht nicht aus. Edge-Inferenz mit GPU-Beschleunigung vor Ort liefert das Ergebnis in unter 50 Millisekunden, und genau das kann den Unterschied zwischen einer funktionierenden und einer stehenden Linie ausmachen.
Über 120 private 5G-Campusnetze betreiben deutsche Industrieunternehmen mittlerweile in ihren Werken, genau aus diesem Grund. Wer Latenzen unter 10 Millisekunden braucht, kommt mit Public-Cloud-Anbindungen nicht hin.
Teurer Datentransfer in die Cloud
Sensordaten in der Fertigung sind sehr datenintensiv. Bosch beispielsweise erfasst in der Halbleiterfertigung eine riesige Menge von Datenpunkte pro Wafer. Wer solche Datenmengen permanent in die Cloud schickt und gleichzeitig viele Daten abruft, zahlt erhebliche Transfergebühren. Lokale Verarbeitung, optional mit selektiver Cloud-Synchronisation, spart einen erheblichen Teil der Transferkosten. Eine Faustregel der Branche: Sobald ein Workload kontinuierlich läuft, kippt die Wirtschaftlichkeit Richtung On-Premise.
Die Jahreskosten einer durchgängig laufenden 8x-GPU-Instanz in der AWS-Cloud können leicht mehrere Hunderttausend US-Dollar erreichen: ein Betrag, für den sich zum Beispiel ein refurbished Dell-R750xa-Cluster im eigenen Rack rechnet. So lassen sich bis zu 70 Prozent der jährlichen Computerkosten einsparen.
KI-Kapazitäten und Datenschutz
Europa hält nach einer Antwort auf eine kleine Anfrage im deutschen Bundestag weniger als fünf Prozent Prozent der globalen KI-Rechenkapazität. 75 Prozent der Rechenkapazität sind in den USA konzentriert, China kommt auf 15 Prozent. Wer bei KI auf europäische Infrastruktur angewiesen ist, kann also auf Engpässe stoßen.
Hinzu kommt das Problem des Datenschutzes. Wer Produktionsdaten in einer US-Cloud verarbeitet, kann sich auch dann nicht hundertprozentig sicher sein, dass keine Behörde Zugriff verlangt, wenn der physische Server in Frankfurt steht. Für einen Werkzeugmaschinenbauer, dessen Trainingsdaten Rückschlüsse auf Fertigungsverfahren erlauben, ist das ein handfestes strategisches Risiko.
Die Cloud-Effizienz schrumpft
Und dann ist da das Wirtschaftlichkeits-Argument. Unternehmen verschwenden bis zu 35 Prozent ihrer Cloud-Kapazitäten. Die durchschnittliche Cloud-Effizienzrate (CER) liegt aktuell bei etwa 80 Prozent. KI-Workloads sind anders als klassische Web-Lasten. Sie laufen oft kontinuierlich, brauchen viel Speicher und produzieren bei jedem API-Call Kosten, auch wenn das Modell zum dritten Mal dieselbe Frage beantwortet.
Open-Source-LLMs sind im Werk angekommen
Open Source LLMs haben inzwischen die Lücke zu proprietären Systemen geschlossen und sind in vielen Bereichen gleichauf oder besser. Viele LLMs laufen inzwischen on-premises, also lokal. Dafür gibt es konkrete Gründe.
Modelle sind kompakter geworden
Quantisierung komprimiert Modellgewichte auf 4-Bit oder sogar 2-Bit, ohne dass die Qualität nennenswert leidet. Ein gut optimiertes 7B-Modell (sieben Milliarden Parameter) schlägt häufig ein schlecht konfiguriertes 70B-Modell mit 70 Milliarden Parametern. Das macht den Betrieb auf einer einzelnen GPU realistisch. NVIDIA Nemotron 3 Nano oder Alibaba Qwen3.5 beispielsweise sind sogenannte Mixture-of-Experts-Modelle. Das bedeutet, dass sie nur einen kleinen Teil der Parameter zur Inferenz nutzen. Damit läuft ein solches Modell zum Beispiel auf einem MacBook mit 64 GB RAM.
Die Tools sind erwachsen geworden
Ollama hat sich seit dem Launch 2023 zum meistgenutzten lokalen LLM-Runner entwickelt und unterstützt mittlerweile über 150 Modelle. Für den produktiven Betrieb in größerem Stil setzen Unternehmen auf vLLM, eine Open-Source-Inferenz-Engine, die mit ihrer PagedAttention-Technik einen bis zu 24-mal höheren Durchsatz schafft als Standardlösungen.
Wer einen Schritt weiter gehen will, orchestriert das Ganze mit Kubernetes, zum Beispiel über Plattformen wie Red Hat OpenShift, das auf der Hannover Messe 2026 gemeinsam mit German Edge Cloud und Fraunhofer als Edge Cloud Continuum vorgestellt wurde.
Die Kosten werden planbar
Die anfängliche Euphorie über den einfachen Zugang zu hochkomplexen KI-Modellen über Cloud-APIs ist einer gewissen ökonomischen Ernüchterung gewichen. Die Kostenstrukturen von Cloud-KI-Anbietern basieren in der Regel auf einer verbrauchsbasierten Metrik, häufig abgerechnet nach Queries, Compute-Zeit oder Token-Volumen.
Wenn hunderte oder tausende Sensoren in einer Industrieanlage kontinuierliche Datenströme im Sekundentakt an eine Cloud-API senden, um beispielsweise Anomalien zu erkennen, können die operativen Ausgaben (OPEX) auf ein Niveau steigen, das die Wirtschaftlichkeit des gesamten Automatisierungsprojekts in Frage stellt.
Edge-Computing verschiebt die Kosten in Richtung eines CAPEX-Modells. Nach der anfänglichen Investition in Edge-Hardware sinken die Grenzkosten für die Inferenz deutlich. Industrieunternehmen können durch die Verlagerung von Echtzeit-Inferenz-Workloads auf Edge-Systeme ihre laufenden Cloud-Kosten deutlich senken.
Fallbeispiele aus dem deutschen Mittelstand und der Industrie
Die folgenden Fallstudien vom KMU bis zum DAX-Konzern belegen die vielfältigen Einsatzszenarien und den messbaren Mehrwert dezentraler KI-Systeme.
apra-plast Kunststoffgehäusesysteme GmbH
Apra-plast fertigt hochindividuelle Kunststoffgehäuse, oft in „Losgröße 1", durch Fräsen, Tiefziehen und 3D-Druck. Die manuelle optische Qualitätskontrolle dieser variantenreichen Einzelstücke war für die Mitarbeiter recht fehleranfällig. In Zusammenarbeit mit dem Mittelstand-Digital Zentrum Kaiserslautern wurde eine mobile, kamerabasierte Edge-KI-Lösung implementiert. Eine Cloud-Lösung schied aus, weil das System hochgradig mobil an verschiedenen Maschinen eingesetzt werden muss und eine starre Netzwerkanbindung unpraktikabel wäre. Entscheidend ist die Software: Weil apra-plast ständig neue Teile fertigt, nutzt das System Few-Shot-Learning, um neue Varianten lokal und ohne massives Cloud-Training zu erlernen. Durch die Einbeziehung der Belegschaft dient die KI nun als willkommenes Assistenzsystem, das die Fachkräfte von monotonen Prüfaufgaben befreit.
VESATEC GbR
Das Unternehmen aus Speyer behandelt eine zentrale Hürde bei der Einführung lokaler KI: die Hardware. VESATEC entwickelt preiswerte, hochflexible Edge-Computer, die speziell auf die individuellen Anforderungen von KMUs und der Maker-Szene zugeschnitten sind. Damit können kleinere Betriebe KI-Workloads vor Ort ausführen, ohne in teure, überdimensionierte Server-Racks investieren zu müssen.
BMW Group
Im BMW-Werk in Regensburg demonstriert der Konzern die Verschmelzung von Edge-KI und privaten 5G-Campusnetzen. In der Lackiererei müssen KI-gesteuerte Roboterarme Abweichungen und Lackierfehler von lediglich 0,3 Millimetern erkennen und sofort ausbessern. Die Übertragung von hochauflösenden Videodaten in eine zentrale Cloud würde den getakteten Produktionsfluss unterbrechen. Durch die lokale Inferenz direkt an der Fertigungsstraße und die extrem schnelle Datenübertragung via 5G werden Latenzen von unter 5 Millisekunden bei einer Zuverlässigkeit von 99,999 Prozent erreicht.
Siemens
In den Siemens-Werken in Amberg und Erlangen verarbeiten Edge-Devices große Datenmengen in Echtzeit. An den Produktionslinien werden die Signale von über 1.000 Messpunkten pro Linie lokal aggregiert und durch neuronale Netze analysiert. Die Ergebnisse der Qualitätsprüfung, die über Ausschuss oder Weiterverarbeitung entscheiden, liegen in unter 5 Millisekunden vor, eine Geschwindigkeit, die über Cloud-APIs physikalisch unmöglich wäre.
Volkswagen
Im Stammwerk in Wolfsburg setzt Volkswagen auf Edge-Server, die über ein 5G-Campusnetzwerk direkt mit Produktionsrobotern kommunizieren. In Bereichen der Mensch-Roboter-Kooperation (MRK), in denen Menschen und Roboter im selben Arbeitsraum agieren, ist Sicherheit das oberste Gebot. Lokale KI-Modelle werten Kameradaten aus und stoppen Roboter bei unvorhergesehenen Bewegungen in weniger als 3 Millisekunden. Sicherheit darf nicht von der Stabilität einer Internetverbindung abhängen.
SoftwareCube
Das KMU SoftwareCube zeigt, dass auch kleinere Technologieanbieter maßgeblich an der Entwicklung lokaler KI-Architekturen beteiligt sind. Das Unternehmen entwickelt Softwarelösungen bis zum Technology Readiness Level 5 (TRL5), die darauf abzielen, in Edge-Umgebungen eingesetzt zu werden, um Prozesse in der Fertigung resilienter gegenüber Netzwerk- und Cloud-Ausfällen zu gestalten.
Zehn Experten-Perspektiven zur digitalen Souveränität und Strategie
Die Ökosystem-Perspektive: Dr. Frauke Goll (appliedAI)
Dr. Frauke Goll von appliedAI betont, dass Künstliche Intelligenz in der industriellen Praxis ein ganzheitliches System erfordert. Die erfolgreiche Adaption von KI im Mittelstand hängt von der Etablierung eines Kompetenznetzwerks ab, das KI-Strategie, Change Management und die verantwortungsvolle, alltägliche Nutzung über alle Unternehmensfunktionen hinweg verbindet und steuert. Insbesondere der Aufstieg von agentischen Systemen, die Workflows autonom steuern, zwingt Unternehmen dazu, Kompetenzen systematisch im eigenen Haus aufzubauen, anstatt sie blind aus der Cloud zu konsumieren.
Die geopolitische Einordnung: Dr. Philipp Gerbert (TUM Venture Labs)
Eine realistische Einordnung der europäischen Position im globalen KI-Wettlauf liefert Dr. Philipp Gerbert von TUM Venture Labs. Er stellt fest, dass die Entwicklung gigantischer, cloudbasierter Foundation Models zwar unbestreitbar von Akteuren aus den USA und China dominiert werde, Europa jedoch exzellente Chancen besitze, in der Anwendungsebene zu dominieren. Die Stärke der deutschen Industrie liege in der Verknüpfung von KI mit der physischen Welt: in agentischen Industrieanwendungen, Edge-Robotik und der Verschmelzung von Maschinendaten mit lokaler Inferenz.
Die Orchestrierungs-Perspektive: Britta Weddeling & Ben Schiller (IPAI)
Britta Weddeling und Ben Schiller als Vertreter des Innovationsparks Künstliche Intelligenz (IPAI) heben hervor, dass Technologie, Talente und Netzwerke nur dann ihre volle transformative Kraft entfalten können, wenn sie räumlich und strukturell orchestriert werden. Public-Private-Plattformen seinen entscheidend, um mittelständische Unternehmen, die KI-Bedarf haben, mit den richtigen Partnern, Edge-Architekturen und Dienstleistungen zusammenzubringen. Skalierbare Infrastruktur müsse jenseits von isolierten Pilotprojekten in der Breite der Industrie verankert werden.
Die Perspektive der souveränen Modelle: Jonas Andrulis (Aleph Alpha)
Jonas Andrulis, CEO des deutschen KI-Pioniers Aleph Alpha, betont die Notwendigkeit von Modellen, die technologische Souveränität, Datensicherheit und Vertrauenswürdigkeit garantieren. Für hochregulierte Sektoren wie den Maschinenbau oder die öffentliche Verwaltung sind Black-Box-Modelle aus der US-Cloud oft unzulässig. Aleph Alphas Ansatz der nachvollziehbaren, erklärbaren KI (Explainability), die auch in On-Premise-Szenarien betrieben werden kann, ist die Antwort auf den europäischen AI Act und das Verlangen der Industrie nach transparenter Entscheidungsfindung
Die Perspektive der Datenkooperation: Janosch Haber (Fujitsu Research / Fraunhofer ISST)
Die Herausforderung, KI-Modelle durch unternehmensübergreifende Daten zu trainieren, ohne Geschäftsgeheimnisse preiszugeben, wird durch das Konzept des „Federated Unlearning" gelöst, das von Forschern wie Janosch Haber vorangetrieben wird. Bei traditionellen Trainingsansätzen führte der Ausstieg eines Partners aus einem Datenkonsortium zum Verlust des gesamten Modells, weil die Daten nicht nachträglich extrahiert werden konnten. Federated Unlearning erlaubt es, den Einfluss spezifischer Daten eines Partners aus einem dezentralen KI-Modell nachträglich zu löschen, ohne die Basisqualität zu zerstören. Damit kann die Industrie kollaborative Edge-KI-Netzwerke aufbauen, bei denen die Souveränität über die eigenen Daten jederzeit gewahrt bleibt.
Die Mittelstands-Perspektive: Jürgen Könen (apra-plast Kunststoffgehäusesysteme)
Aus der direkten Praxis des Mittelstands warnt Jürgen Könen, Geschäftsführer von apra-plast, davor, KI blindes Vertrauen zu schenken. Er sieht ein gewaltiges Potenzial für KI in der Übernahme repetitiver, fehleranfälliger Routineaufgaben wie der optischen Inspektion, betont jedoch den „Human-in-the-loop"-Ansatz. Die KI soll den Facharbeiter entlasten und als Assistenzsystem dienen, nicht als unkontrollierte autonome Instanz. Ohne die Integration der Belegschaft und ohne eine pragmatische, auf den Shopfloor fokussierte KI-Strategie, so seine Überzeugung, gibt es für den Mittelstand keine Zukunft.25
Die verbandspolitische Perspektive: Bitkom e.V.
Eine Umfrage des des Bitkom zeigt, dass eine große Mehrheit der Industrieunternehmen sich digitale Technik, Software und Services explizit aus Europa wünscht, wobei ein Drittel sich bereits bewusst für europäische Edge- und On-Premise-Anbieter entschieden hat, um Resilienz gegenüber globalen Verwerfungen aufzubauen.
Was Unternehmen jetzt konkret tun sollten
Anfangen, wo es weh tut
Der typische Einstieg in Edge-KI sind die Workloads mit dem höchsten Schmerz: Predictive Maintenance, optische Qualitätskontrolle, Anomalieerkennung. Hier sind die Anforderungen an die Latenz und die Datenmenge groß genug, damit sich der Aufwand sofort rechnet.
Hybrid denken, nicht entweder-oder
Das Edge Cloud Continuum, wie es Fraunhofer und German Edge Cloud propagieren, beschreibt einen pragmatischen Ansatz: zeitkritische Inferenz an der Maschine, rechenintensives Training in der Cloud oder im eigenen Rechenzentrum. Containerisierte Workloads mit Kubernetes als gemeinsame Schicht halten beide Welten kompatibel und vermeiden Lock-in von Anfang an.
| Hierarchie-Ebene | Infrastruktur / Hardware | Typischer KI-Workload & Charakteristik | Tolerierbare Latenz |
| Level 0–1 (On-Device) | Inferenz läuft direkt auf dem Mikrocontroller des Sensors, der Kamera oder der SPS. | Quantisierte TinyML-Modelle für Keyword-Spotting, hochfrequente Vibrationsanalyse, unmittelbare Not-Aus-Szenarien. | Mikrosekunden |
| Level 2 (Edge Node) | Industrie-PCs (IPCs) mit Edge-GPUs/NPUs, vernetzt über 5G-Campusnetze. | Komplexe optische Bildverarbeitung für Qualitätskontrolle, RAG-gestützte SLMs für Maschinenbediener. | < 5 bis 10 Millisekunden |
| Level 3 (Plant Server) | Lokaler Rechenzentrum-Server im Werk, Integration mit dem MES-System. | Werksweite Produktionsoptimierung, Vorverarbeitung von Telemetriedaten für den Cloud-Upload. | Sekunden bis Minuten |
| Level 4–5 (Cloud) | Zentrale, hochskalierbare Rechenzentren (Sovereign Cloud oder Public Cloud). | Initiales Modell-Training, anlagen- und werksübergreifende prädiktive Mustererkennung, zentrales Flottenmanagement. | Stunden bis Tage |
Tabelle 1: Hybride Architektur aus Edge und Cloud
Open-Weight-Modelle bevorzugen
Wer auf Modelle wie Llama 4, Qwen3.5, Mistral Large 3 oder GPT-OSS-120B von OpenAI setzt, behält die Möglichkeit, Hardware und Anbieter zu wechseln, ohne die Anwendung neu zu bauen. Das ist der wichtigste strukturelle Hebel gegen Vendor-Lock-in und gleichzeitig die Eintrittskarte in die europäische KI-Infrastruktur, weil europäische Anbieter wie Mistral AI oder Aleph Alpha auf genau diesem Modell aufbauen.
Refurbished-Hardware ernsthaft prüfen
Wer eigene GPU-Server aufbauen will, sollte gebrauchte Enterprise-Hardware nicht ausschließen. Refurbished-Server bieten identische Leistung wie neue Geräte zu 40 bis 60 Prozent niedrigeren Preisen, und das ohne die drei- bis sechsmonatigen Lieferzeiten. Für Continuous-Inference-Workloads kann sich ein Refurbished-Cluster in vier bis sechs Monaten amortisieren.
In Menschen investieren
Hardware allein bringt keine produktive KI hervor. Budgets für Infrastruktur müssen durch Weiterbildung flankiert werden. Sonst steht der teure GPU-Cluster ungenutzt im Rack. Für viele Mittelständler ist eine Partnerschaft mit einem IT-Systemhaus oder einem Sovereign-Cloud-Anbieter besser realisierbar als der komplette Eigenbetrieb.
Deutschlands stille KI-Chance
Die deutsche Fertigungsindustrie produziert riesige Mengen sehr spezialisierter Daten direkt an der Maschine, mit hohen Compliance-Anforderungen und einem starken Bedarf an niedriger Latenz. Genau dieses Profil passt schlecht zur Public Cloud, aber sehr gut zu lokalen Open-Source-LLMs auf eigener Hardware.
Die Beispiele von Siemens bis BMW, aber auch viele mittelständische Unternehmen zeigen, dass deutsche Unternehmen den Weg pragmatisch gehen: Sie bauen Edge-Architekturen, die Cloud-Vorteile nutzen, ohne sich davon abhängig zu machen. Sie kombinieren Open-Source-Modelle mit europäischer Infrastruktur. Und sie machen das in einer Geschwindigkeit, die in der öffentlichen Wahrnehmung untergeht, weil sie weniger spektakulär aussieht als ein neues GPT-Release.
Wer jetzt anfängt, klein und an der richtigen Stelle, wird in zwei Jahren eine KI-Architektur haben, die zur eigenen Wertschöpfung passt.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
Claude Mythos ist da und bringt enorme Chancen und Bedrohungen
Am 7. April stellte Anthropic ein KI-Modell vor, das die Branche aufhorchen ließ: Claude Mythos. Das Modell erweitert die bisherige
Von Claude-Leak bis Mistral-Offensive: Wie die Energiekrise die KI-Welt auf den Kopf stellt
️ Über diese Episode In dieser explosiven Folge diskutieren Yusuf und Christian die größten KI-News der Woche: Der
MIT entwickelt Systematik, um Ethik von autonomen Systemen zu bewerten
Das MIT hat ein neues System entwickelt, mit dem autonome KI-Systeme optimale Entscheidungen auf ethischer Basis treffen können. Künstliche
Zum Inhalt springen



