Skip to content

Stellungnahme von D64: Datenschutz und KI – Herausforderungen und Empfehlungen

KI und Datenschutz müssen vereinbar sein. Vollständige Anonymisierung beim Training von Large Language Models ist praktisch unmöglich. Wir fordern transparente Nachweispflichten, techhnische Schutzmaßnahmen und durchsetzbare Betroffenenrechte. LLMs verarbeiten massenhaft personenbezogene Daten, also gilt die DSGVO auch hier.
Bild: D64/Johann Lensing

Wir setzen uns bei D64 – Zentrum für Digitalen Fortschritt für einen verantwortungsvollen und zukunftsfähigen Umgang mit Künstlicher Intelligenz (KI) ein. Im Rahmen der Konsultation der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit (BfDI) haben wir eine umfassende Stellungnahme zum datenschutzkonformen Umgang mit personenbezogenen Daten in KI-Modellen eingereicht. Unsere Position ist klar: Die Herausforderungen sind tiefgreifend – und reine Anonymisierung reicht nicht aus.

Warum vollständige Anonymisierung beim KI-Training nicht funktioniert

Theoretisch erfüllt das Training von KI-Modellen mit anonymen Daten die DSGVO-Anforderungen. In der Praxis ist eine vollständige Anonymisierung angesichts der riesigen und vielfältigen Trainingsdatenmengen nicht zuverlässig möglich. Personenbezogene Daten durchziehen nahezu alle relevanten Trainingsquellen: Wissenschaftliche Publikationen nennen ihre Autor:innen, Gerichtsurteile referenzieren Parteien und Richter:innen, Nachrichten berichten über konkrete Personen und deren Handlungen, historische Texte dokumentieren biografische Zusammenhänge. Diese Verknüpfungen sind essenziell, damit KI-Modelle Wissen über die reale Welt abbilden und verknüpfen können. Ein Modell, das diese Bezüge nicht kennt, verliert seine Orientierung und Funktionsfähigkeit.

Die DSGVO gilt – und braucht klare, durchsetzbare Vorgaben

Wir stellen fest: LLMs (Large Language Models) unterliegen der DSGVO. Die Aufsichtsbehörden (allen voran die BfDI) müssen konkrete, durchsetzbare Vorgaben schaffen, was im Kontext von KI als „anonym“ gilt. Nach Erwägungsgrund 26 DSGVO sind bei der Prüfung, ob eine Person identifizierbar ist, alle Mittel zu berücksichtigen, die wahrscheinlich zur Re-Identifizierung genutzt werden könnten. Die EDSA-Stellungnahme 28/2024 definiert Mindeststandards, die ausnahmslos einzuhalten sind, wenn ein LLM als anonym gelten soll. Angesichts des massenhaften Einsatzes personenbezogener Daten beim Training halten wir es für nahezu ausgeschlossen, dass LLMs mit unbegrenztem Nutzendenkreis tatsächlich als anonym gelten können.

Technische Maßnahmen: Notwendig, aber nicht ausreichend

Viele der diskutierten technischen Maßnahmen greifen bei LLMs strukturell ins Leere. Deduplikation, also die Löschung doppelter Informationen, reduziert lediglich Mehrfachvorkommen, verhindert aber nicht die Memorisierung (Speicherung) einmaliger Daten im Modell. Anonymisierte Trainingsdaten würden die Funktionsfähigkeit des Modells beeinträchtigen. Fine-Tuning ohne personenbezogene Daten ändert nichts an der bereits im Basismodell eingebrannten Memorisierung. Differential Privacy verschlechtert die Modellperformance so stark, dass kommerzielle Anbieter meist darauf verzichten. Auch Output-Filter adressieren nur Symptome, nicht die Ursache: Personenbezogene Daten bleiben in den Modellparametern kodiert und können durch geschicktes Prompting, Jailbreaking oder indirekte Abfragen extrahiert werden. Das grundlegende Problem bleibt bestehen: Ein Modell, das personenbezogene Daten memorisiert hat, trägt diese permanent in sich.

Wir sehen das Risiko, dass personenbezogene Daten aus einem LLM extrahiert werden können, als sehr hoch an. Datenschutzrechtlich ist jede Eingabe eines Prompts eine Verarbeitung, da die in den Modellparametern repräsentierten Daten Einfluss auf das Berechnungsergebnis nehmen. Auch wenn der Output keine erkennbaren personenbezogenen Daten enthält, bleibt die Verarbeitung personenbezogener Daten bestehen.

Transparenzdilemma und Compliance-Problem

Ein zentrales Problem ist das Transparenzdilemma: Nutzende eines vortrainierten Modells können nicht erkennen, ob und welche personenbezogenen Daten in die Modellparameter eingeflossen sind. Diese strukturelle Informationsasymmetrie führt zu einem Compliance-Problem: Ohne Kenntnis der Datengrundlage können Nutzende weder die erforderlichen Rechtsgrundlagen prüfen noch ihre Informationspflichten nach Art. 13 und 14 DSGVO nachkommen.

Wir fordern, dass Modellbetreiber präzise nachweisen müssen, an welchen Stellen personenbezogene Daten der anfragenden Person in den Trainingsdaten auftreten. Betroffene müssen eine vollständige Kopie der identifizierten Datensegmente erhalten können. Löschungsrechte müssen durch technische Sperrmechanismen und „de-learning“ umgesetzt werden. Parallel sollten Betreiber ein Unterlassungsrecht implementieren, sodass Betroffene verlangen können, dass das Sprachmodell keinerlei Informationen über ihre Person ausgibt. Anstelle komplexer Korrekturverfahren sollte die vollständige Löschung der betroffenen Daten angeboten werden, um inkonsistente Teilkorrekturen zu vermeiden.

Qualitätskontrolle, Benchmarks und technische Schutzmaßnahmen

KI-Modelle produzieren regelmäßig faktisch falsche Aussagen über reale Personen. Die Branche benötigt standardisierte Testverfahren mit klar definierten Grenzwerten für akzeptable Fehlerquoten bei personenbezogenen Informationen. Dazu gehören einheitliche Messverfahren für die Faktentreue, verbindliche Maximalwerte für Falschaussagen, regelmäßige Überprüfungen und Zertifizierungen, Korrekturmechanismen für systematisch auftretende Falschinformationen sowie Beschwerdemechanismen für betroffene Nutzende. Die Tragweite fehlerhafter KI-Ausgaben zeigt sich in dokumentierten Fällen schwerwiegender Falschbehauptungen – etwa als ChatGPT einem unbescholtenen Bürger einen Doppelmord an Kindern unterstellte.

Ergänzend zu rechtlichen Vorgaben fordern wir technische Schutzmaßnahmen wie Konfidenzwerte (Schätzungen darüber, wie sicher sich das Modell bei einer Antwort ist) für personenbezogene Aussagen mit automatischer Unterdrückung bei Unsicherheit, Verifizierungssysteme für Faktenchecks bei Personennennungen, Audit-Logs zur Nachvollziehbarkeit der Datenquellen und Sperrverzeichnisse für besonders schutzbedürftige Personen.

Der Schutz individueller Rechte im KI-Zeitalter erfordert sowohl rechtliche als auch technische Innovationen – und vor allem den politischen Willen, diese Herausforderungen entschlossen anzugehen. Wir fordern klare Regeln, Transparenz, technische Mindeststandards und eine konsequente Durchsetzung der Betroffenenrechte. Nur so kann KI in Europa verantwortungsvoll und im Sinne der Menschen gestaltet werden.

Diese Stellungnahme wurde am 31. August 2025 von D64 – Zentrum für Digitalen Fortschritt e.V. im Rahmen der Konsultation der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit eingereicht. Für Rückfragen und weitere Informationen stehen wir gerne zur Verfügung.

Foto von AG Datenschutz

AG Datenschutz

Die AG Datenschutz befasst sich mit verschiedenen Aspekten im Zusammenhang mit Daten. Wir erarbeiten, wie diese zum Wohle der Bevölkerung genutzt werden können und wie die Privatsphäre aller Bürger:innen geschützt werden kann. Dabei geht es insbesondere um Tracking im Internet, Gesichtserkennung, Videoüberwachung und Open Data.

Mitwirkende

Bendix Sältz , Susanne Klausing , Torben Dzillak