Prompt Injection: OpenAI erklärt, warum KI-Agenten angreifbar bleiben

Der Einsatz von KI-Agenten, die eigenständig Aufgaben im Internet erledigen, schafft neue und schwer beherrschbare Sicherheitsrisiken. Ein aktuelles Beispiel ist der Atlas Browser von OpenAI. Im Agent Mode betrachtet das System Webseiten und führt eigenständig Aktionen wie Mausklicks und Tastatureingaben aus, um Arbeitsabläufe des Nutzers zu übernehmen. Doch genau diese Fähigkeit macht das System verwundbar für eine Angriffsmethode, die als „Prompt Injection" bekannt ist.

Das Prinzip der Prompt Injection im Browser

Anders als bei klassischer Schadsoftware, die Sicherheitslücken in Software selbst ausnutzt, zielt Prompt Injection auf einen verwendeten KI-Agenten. Angreifer verstecken dabei schädliche Befehle in Inhalten, die der Agent verarbeitet, wie zum Beispiel in E-Mails, geteilten Dokumenten oder auf Webseiten. Das Ziel ist es, die ursprüngliche Absicht des Nutzers zu überschreiben und den Agenten dazu zu bringen, die Befehle des Angreifers auszuführen.

Ein konkretes Beispiel aus internen Tests von OpenAI verdeutlicht die Gefahr: Ein Angreifer platziert eine versteckte Anweisung in einer E-Mail. Wenn der Nutzer den Agenten später bittet, eine Abwesenheitsnotiz zu verfassen, stößt der Agent bei der Analyse des Posteingangs auf diese manipulierte E-Mail. In dem Test behandelte der Agent die injizierte Anweisung als autorisiert und schickte statt der Abwesenheitsnotiz eine Kündigung an den Vorgesetzten des Nutzers. Das zeigt, dass der Agent potenziell Aktionen ausführen kann, die weitreichende Konsequenzen haben, wie das Versenden sensibler Daten oder das Löschen von Dateien.

Prompt Injection per E-Mail: Beispiel von OpenAI

Gegenmaßnahmen durch Automatisierung

Um solche Angriffe zu erschweren, setzt OpenAI auf automatisierte Sicherheitstests, das sogenannte Red Teaming. Dabei wird ein spezielles KI-Modell trainiert, das als Angreifer fungiert. Das System nutzt Reinforcement Learning, um selbstständig neue Wege zu finden, den Agenten auszutricksen. Es simuliert Angriffe, beobachtet die Reaktion des Agenten und passt die Strategie an, um auch komplexe, mehrstufige Sicherheitslücken zu entdecken.

Sobald das System eine neue Art von Angriff identifiziert, wird das Modell des Agenten angepasst. Das Ziel ist es, eine Art Resistenz gegen diese spezifischen Angriffsmuster direkt in das System zu integrieren. OpenAI bezeichnet das als einen schnellen Reaktionskreislauf, um Lücken zu schließen, bevor sie in der realen Welt ausgenutzt werden.

Simulation eines Angriffs per Prompt Injection - OpenAI

Warum das Risiko bestehen bleibt

Trotz dieser technischen Aufrüstung ist es derzeit unmöglich, Angriffe komplett auszuschließen. Das Kernproblem liegt in der Natur von Sprachmodellen und der offenen Umgebung des Webs. Der Agent muss mit unzähligen, nicht vertrauenswürdigen Quellen interagieren, was die Angriffsfläche enorm groß macht. OpenAI selbst warnt in seinem Blogbeitrag vor falschen Erwartungen bezüglich einer absoluten Sicherheit:

„The nature of prompt injection makes deterministic security guarantees challenging."

Das bedeutet, dass es keine mathematische oder technische Garantie geben kann, dass ein Agent jede manipulierte Anweisung erkennt und ignoriert. Die Verteidigung gegen Prompt Injection ähnelt weniger dem Schließen einer statischen Sicherheitslücke, sondern eher dem Kampf gegen Betrugsmaschen, die sich ständig weiterentwickeln. OpenAI zieht hierzu einen Vergleich mit Social Engineering:

„Prompt injection, much like scams and social engineering on the web, is unlikely to ever be fully 'solved'."

Fazit für die Nutzung

Weil technische Filter keinen hundertprozentigen Schutz bieten, wird die Verantwortung an den Nutzer weitergereicht. Es wird empfohlen, den Zugriff des Agenten auf nicht eingeloggte Webseiten zu beschränken, wenn ein Log-In für die Aufgabe nicht zwingend nötig ist. Zudem sollten Nutzer Bestätigungsanfragen des Agenten wie etwa vor dem Absenden einer E-Mail genau prüfen, um sicherzustellen, dass keine Manipulation vorliegt.

Solange KI-Agenten Inhalte aus dem offenen Internet verarbeiten, bleibt die Nutzung mit einem gewissen Restrisiko verbunden.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr