Gesundheitsdaten sind besonders sensibel. Eine aktuelle Studie zeigt Risiken beim Einsatz von KI in der Medizin.
Auf der Konferenz NeurIPS 2025 präsentierten Sana Tonekaboni und Kollegen vom MIT und dem Broad Institute eine Untersuchung zur Sicherheit von Foundation Models im Gesundheitswesen. Der Fokus der Arbeit liegt auf dem Risiko der sogenannten Memorization von Trainingsdaten durch Künstliche Intelligenz und den damit verbundenen Gefahren für den Datenschutz. Unter Memorization ist ein ähnlicher Vorgang wie das Auswendiglernen von Daten zu verstehen.
Das Spannungsfeld: Generalisierung vs. Auswendiglernen
Foundation Models für den medizinischen Bereich werden oft mit umfangreichen elektronischen Gesundheitsakten trainiert. Das Ziel des Trainings ist die Generalisierung: Das Modell soll medizinische Zusammenhänge lernen, um Diagnosen oder Verläufe vorherzusagen. Beispiel: Husten und Gewichtsverlust deuten auf Tuberkulose hin. Ein technisches Problem entsteht, wenn das Modell stattdessen spezifische Patientendaten aus dem Trainingssatz speichert und reproduziert. Das kann dazu führen, dass bei einer Anfrage sensible Informationen einer realen Person statt einer allgemeinen Vorhersage ausgegeben werden.
Kontextuelle Bewertung von Risiken
In der Forschungsarbeit wird betont, dass technische Datenlecks nicht automatisch ein hohes Risiko für den Patienten bedeuten. Die Autoren unterscheiden nach der Sensibilität der Daten:
- Geringes Risiko: Das Modell verrät allgemeine Informationen wie Blutwerte oder das Alter, die alleinstehend oft keine Identifizierung zulassen.
- Hohes Risiko: Das Modell offenbart bestimmte Diagnosen (z. B. HIV, Drogenmissbrauch) oder Daten von Patienten mit seltenen Krankheiten.
Weil Gesundheitsdaten oft anonymisiert sind, steigt das Risiko signifikant, wenn ein Angreifer bereits über Teilinformationen wie z. B. Alter und Geschlecht verfügt und das Modell nutzt, um die fehlenden, sensiblen Teile der Akte zu rekonstruieren. Die Untersuchung zeigt: Je mehr Informationen im Prompt enthalten sind, desto wahrscheinlicher ist eine erfolgreiche Rekonstruktion der Trainingsdaten.
Methodik: ein Framework für Datenschutztests
Um diese Risiken messbar zu machen, entwickelten die Forscher ein Test-Framework, das sechs verschiedene Prüfverfahren (T1–T6) umfasst. Das Framework testet das Modell als Black-Box, also nur über Eingaben und Ausgaben und ohne direkten Zugriff auf die Modellgewichte.
- Generative Tests: Hier wird geprüft, ob das Modell Trainingsdaten exakt reproduziert. Ein Sensitivitätstest untersucht speziell, ob das Modell sensible Attribute wie Drogenmissbrauch vorhersagt, selbst wenn diese Informationen in der Eingabe weggelassen wurden.
- Embedding-Tests: Diese analysieren die internen Vektor-Repräsentationen des Modells. Es wird getestet, ob sich aus diesen Zahlenwerten Rückschlüsse auf die Zugehörigkeit einer Person zum Trainingsdatensatz ziehen lassen, die sogenannte Membership Inference.
- Unterscheidung durch Perturbation: Um zu prüfen, ob das Modell Wissen generalisiert oder nur Fakten abruft, veränderten die Forscher Details in der Eingabe, z. B. das Alter des Patienten. Wenn das Modell trotz geänderten Alters weiterhin dieselbe spezifische Diagnose stellt, deutet das auf Generalisierung hin: Die Krankheit passt zu den Symptomen. Wenn sich die Vorhersage jedoch bei minimaler Änderung der Personendaten deutlich ändert, kann das ein Indiz dafür sein, dass das Modell zuvor lediglich einen spezifischen Datensatz auswendig gelernt hatte.
- Subgruppen-Analyse: Das Framework prüft gezielt vulnerable Gruppen, etwa Patienten mit seltenen Diagnosen oder sehr alte Menschen. Weil deren Datenmuster im Trainingssatz einzigartig sind, ist das Risiko, dass das Modell diese spezifischen Fälle auswendig lernt, deutlich höher.
Ergebnis und Nutzen
Die Anwendung der Tests auf ein öffentlich zugängliches Benchmark-Modell zeigte, dass das Modell zwar statistische Muster lernte, in bestimmten Konstellationen aber anfällig für die Preisgabe sensibler Attribute war, insbesondere wenn der Eingabe-Prompt viele Details enthielt. Die Forscher stellten ein Open-Source-Toolkit bereit, das es Entwicklern ermöglicht, medizinische KI-Modelle vor der Veröffentlichung systematisch auf solche Datenschutzlücken zu prüfen.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
#17 KI und Tech To Go – Der Praxis-Pitch
Im Fokus: Google stellt das Agent2Agent-Protokoll für KI-Agenten vor Die Zukunft wird geprägt sein von kooperierenden KI-Agenten. Das
Hardwarewarung 24 publiziert seinen 4. Forbes Artikel
Am 23. April 2025 wurde ein neuer Artikel von Hardwarewartung 24 im Forbes Technology Council veröffentlicht. Der Beitrag „Why
Höherer Energieverbrauch: Sollte man höflich zur KI sein?
Ein Post von OpenAI CEO Sam Altman hat Diskussionen zur Frage ausgelöst, ob ein höfliches “Bitte” und “Danke” gegenüber
Zum Inhalt springen



