KI in der Medizin: Studie zeigt Risiken für den Datenschutz

Gesundheitsdaten sind besonders sensibel. Eine aktuelle Studie zeigt Risiken beim Einsatz von KI in der Medizin.

Auf der Konferenz NeurIPS 2025 präsentierten Sana Tonekaboni und Kollegen vom MIT und dem Broad Institute eine Untersuchung zur Sicherheit von Foundation Models im Gesundheitswesen. Der Fokus der Arbeit liegt auf dem Risiko der sogenannten Memorization von Trainingsdaten durch Künstliche Intelligenz und den damit verbundenen Gefahren für den Datenschutz. Unter Memorization ist ein ähnlicher Vorgang wie das Auswendiglernen von Daten zu verstehen.

Das Spannungsfeld: Generalisierung vs. Auswendiglernen

Foundation Models für den medizinischen Bereich werden oft mit umfangreichen elektronischen Gesundheitsakten trainiert. Das Ziel des Trainings ist die Generalisierung: Das Modell soll medizinische Zusammenhänge lernen, um Diagnosen oder Verläufe vorherzusagen. Beispiel: Husten und Gewichtsverlust deuten auf Tuberkulose hin. Ein technisches Problem entsteht, wenn das Modell stattdessen spezifische Patientendaten aus dem Trainingssatz speichert und reproduziert. Das kann dazu führen, dass bei einer Anfrage sensible Informationen einer realen Person statt einer allgemeinen Vorhersage ausgegeben werden.

Kontextuelle Bewertung von Risiken

In der Forschungsarbeit wird betont, dass technische Datenlecks nicht automatisch ein hohes Risiko für den Patienten bedeuten. Die Autoren unterscheiden nach der Sensibilität der Daten:

Geringes Risiko: Das Modell verrät allgemeine Informationen wie Blutwerte oder das Alter, die alleinstehend oft keine Identifizierung zulassen.
Hohes Risiko: Das Modell offenbart bestimmte Diagnosen (z. B. HIV, Drogenmissbrauch) oder Daten von Patienten mit seltenen Krankheiten.

Weil Gesundheitsdaten oft anonymisiert sind, steigt das Risiko signifikant, wenn ein Angreifer bereits über Teilinformationen wie z. B. Alter und Geschlecht verfügt und das Modell nutzt, um die fehlenden, sensiblen Teile der Akte zu rekonstruieren. Die Untersuchung zeigt: Je mehr Informationen im Prompt enthalten sind, desto wahrscheinlicher ist eine erfolgreiche Rekonstruktion der Trainingsdaten.

Methodik: ein Framework für Datenschutztests

Um diese Risiken messbar zu machen, entwickelten die Forscher ein Test-Framework, das sechs verschiedene Prüfverfahren (T1–T6) umfasst. Das Framework testet das Modell als Black-Box, also nur über Eingaben und Ausgaben und ohne direkten Zugriff auf die Modellgewichte.

Generative Tests: Hier wird geprüft, ob das Modell Trainingsdaten exakt reproduziert. Ein Sensitivitätstest untersucht speziell, ob das Modell sensible Attribute wie Drogenmissbrauch vorhersagt, selbst wenn diese Informationen in der Eingabe weggelassen wurden.
Embedding-Tests: Diese analysieren die internen Vektor-Repräsentationen des Modells. Es wird getestet, ob sich aus diesen Zahlenwerten Rückschlüsse auf die Zugehörigkeit einer Person zum Trainingsdatensatz ziehen lassen, die sogenannte Membership Inference.
Unterscheidung durch Perturbation: Um zu prüfen, ob das Modell Wissen generalisiert oder nur Fakten abruft, veränderten die Forscher Details in der Eingabe, z. B. das Alter des Patienten. Wenn das Modell trotz geänderten Alters weiterhin dieselbe spezifische Diagnose stellt, deutet das auf Generalisierung hin: Die Krankheit passt zu den Symptomen. Wenn sich die Vorhersage jedoch bei minimaler Änderung der Personendaten deutlich ändert, kann das ein Indiz dafür sein, dass das Modell zuvor lediglich einen spezifischen Datensatz auswendig gelernt hatte.
Subgruppen-Analyse: Das Framework prüft gezielt vulnerable Gruppen, etwa Patienten mit seltenen Diagnosen oder sehr alte Menschen. Weil deren Datenmuster im Trainingssatz einzigartig sind, ist das Risiko, dass das Modell diese spezifischen Fälle auswendig lernt, deutlich höher.

Ergebnis und Nutzen

Die Anwendung der Tests auf ein öffentlich zugängliches Benchmark-Modell zeigte, dass das Modell zwar statistische Muster lernte, in bestimmten Konstellationen aber anfällig für die Preisgabe sensibler Attribute war, insbesondere wenn der Eingabe-Prompt viele Details enthielt. Die Forscher stellten ein Open-Source-Toolkit bereit, das es Entwicklern ermöglicht, medizinische KI-Modelle vor der Veröffentlichung systematisch auf solche Datenschutzlücken zu prüfen.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr