Der Einsatz von KI-Agenten, die eigenständig Aufgaben im Internet erledigen, schafft neue und schwer beherrschbare Sicherheitsrisiken. Ein aktuelles Beispiel ist der Atlas Browser von OpenAI. Im Agent Mode betrachtet das System Webseiten und führt eigenständig Aktionen wie Mausklicks und Tastatureingaben aus, um Arbeitsabläufe des Nutzers zu übernehmen. Doch genau diese Fähigkeit macht das System verwundbar für eine Angriffsmethode, die als „Prompt Injection" bekannt ist.
Das Prinzip der Prompt Injection im Browser
Anders als bei klassischer Schadsoftware, die Sicherheitslücken in Software selbst ausnutzt, zielt Prompt Injection auf einen verwendeten KI-Agenten. Angreifer verstecken dabei schädliche Befehle in Inhalten, die der Agent verarbeitet, wie zum Beispiel in E-Mails, geteilten Dokumenten oder auf Webseiten. Das Ziel ist es, die ursprüngliche Absicht des Nutzers zu überschreiben und den Agenten dazu zu bringen, die Befehle des Angreifers auszuführen.
Ein konkretes Beispiel aus internen Tests von OpenAI verdeutlicht die Gefahr: Ein Angreifer platziert eine versteckte Anweisung in einer E-Mail. Wenn der Nutzer den Agenten später bittet, eine Abwesenheitsnotiz zu verfassen, stößt der Agent bei der Analyse des Posteingangs auf diese manipulierte E-Mail. In dem Test behandelte der Agent die injizierte Anweisung als autorisiert und schickte statt der Abwesenheitsnotiz eine Kündigung an den Vorgesetzten des Nutzers. Das zeigt, dass der Agent potenziell Aktionen ausführen kann, die weitreichende Konsequenzen haben, wie das Versenden sensibler Daten oder das Löschen von Dateien.

Gegenmaßnahmen durch Automatisierung
Um solche Angriffe zu erschweren, setzt OpenAI auf automatisierte Sicherheitstests, das sogenannte Red Teaming. Dabei wird ein spezielles KI-Modell trainiert, das als Angreifer fungiert. Das System nutzt Reinforcement Learning, um selbstständig neue Wege zu finden, den Agenten auszutricksen. Es simuliert Angriffe, beobachtet die Reaktion des Agenten und passt die Strategie an, um auch komplexe, mehrstufige Sicherheitslücken zu entdecken.
Sobald das System eine neue Art von Angriff identifiziert, wird das Modell des Agenten angepasst. Das Ziel ist es, eine Art Resistenz gegen diese spezifischen Angriffsmuster direkt in das System zu integrieren. OpenAI bezeichnet das als einen schnellen Reaktionskreislauf, um Lücken zu schließen, bevor sie in der realen Welt ausgenutzt werden.

Warum das Risiko bestehen bleibt
Trotz dieser technischen Aufrüstung ist es derzeit unmöglich, Angriffe komplett auszuschließen. Das Kernproblem liegt in der Natur von Sprachmodellen und der offenen Umgebung des Webs. Der Agent muss mit unzähligen, nicht vertrauenswürdigen Quellen interagieren, was die Angriffsfläche enorm groß macht. OpenAI selbst warnt in seinem Blogbeitrag vor falschen Erwartungen bezüglich einer absoluten Sicherheit:
„The nature of prompt injection makes deterministic security guarantees challenging."
Das bedeutet, dass es keine mathematische oder technische Garantie geben kann, dass ein Agent jede manipulierte Anweisung erkennt und ignoriert. Die Verteidigung gegen Prompt Injection ähnelt weniger dem Schließen einer statischen Sicherheitslücke, sondern eher dem Kampf gegen Betrugsmaschen, die sich ständig weiterentwickeln. OpenAI zieht hierzu einen Vergleich mit Social Engineering:
„Prompt injection, much like scams and social engineering on the web, is unlikely to ever be fully 'solved'."
Fazit für die Nutzung
Weil technische Filter keinen hundertprozentigen Schutz bieten, wird die Verantwortung an den Nutzer weitergereicht. Es wird empfohlen, den Zugriff des Agenten auf nicht eingeloggte Webseiten zu beschränken, wenn ein Log-In für die Aufgabe nicht zwingend nötig ist. Zudem sollten Nutzer Bestätigungsanfragen des Agenten wie etwa vor dem Absenden einer E-Mail genau prüfen, um sicherzustellen, dass keine Manipulation vorliegt.
Solange KI-Agenten Inhalte aus dem offenen Internet verarbeiten, bleibt die Nutzung mit einem gewissen Restrisiko verbunden.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
Google AlphaEvolve ist da: KI-Agent zum Entdecken und Optimieren von Algorithmen
Google hat mit AlphaEvolve einen KI-Agenten veröffentlicht, der komplexe Probleme in der Informatik und Mathematik lösen soll. Im Fokus stehen
Google rollt Gemini 3 Deep Think aus
Der mit Spannung erwartete Deep-Think-Modus von Gemini 3 ist da: Google stellt diesen zunächst für AI-Ultra-Abonnenten zur Verfügung. Etwa
‚Code Red‘: Warum Sam Altman ‚Alarmstufe Rot‘ bei OpenAI ausgerufen hat
OpenAI steht unter Druck. Das Unternehmen befindet sich im Krisenmodus. Der von Sam Altman ausgerufene ‚Code Red‘ ist die Reaktion
Zum Inhalt springen



