Wenig Einigkeit und viele Unklarheiten im BfDI-Konsultationsbericht | D64

Die Bundesbeauftragte für den Datenschutz und die Informationsfreiheit (BfDI) hat ihren Bericht zum öffentlichen Konsultationsverfahren „KI-Modelle und personenbezogene Daten“ veröffentlicht. Dreißig Stellungnahmen wurden eingereicht – von Unternehmen, Verbänden, Forschungseinrichtungen und der Zivilgesellschaft. Eine davon war von D64 – Zentrum für Digitalen Fortschritt. Wir nehmen die Veröffentlichung zum Anlass, die D64-Position mit den Ergebnissen der Konsultation zu vergleichen – und zu erklären, warum wir in zentralen Punkten anderer Meinung sind.

Zur Stellungnahme

Was der Bericht zeigt: viel Einigkeit in der Diagnose, wenig in der Therapie

Der BfDI-Bericht fasst eine tief gespaltene Debatte zusammen. Bei der Grundsatzfrage, ob große Sprachmodelle unter die DSGVO fallen, besteht weitgehend Einigkeit: Large Language Models (LLMs) verarbeiten personenbezogene Daten, der Rechtsrahmen gilt. Doch schon bei der nächsten Frage – wann und unter welchen Bedingungen ein Modell als „anonym“ gelten kann – gehen die Einschätzungen stark auseinander. 67 Prozent der Einsendenden sprachen sich für eine risikobasierte Betrachtung aus: Anonymität sei demnach situationsabhängig möglich. 17 Prozent waren der Ansicht, ein LLM könne niemals als anonym gelten. Weitere 17 Prozent hielten LLMs grundsätzlich für anonym.

Ähnlich uneinheitlich ist das Bild beim Extraktionsrisiko: 37 Prozent schätzen die Gefahr, dass personenbezogene Daten aus trainierten Modellen extrahiert werden können, als real und hoch ein – 27 Prozent hingegen als gering. Bei technischen Schutzmaßnahmen und Betroffenenrechten zeichnen sich ähnliche Gräben ab.

Wo wir stehen – und warum

In unserer Stellungnahme haben wir eine klare Position eingenommen: Eine vollständige Anonymisierung beim Training großer Sprachmodelle ist theoretisch denkbar, aber praktisch unmöglich. Personenbezogene Daten sind strukturell in Trainingsquellen eingebettet – in wissenschaftlichen Arbeiten, Gerichtsentscheidungen, Nachrichtenartikeln –, und diese Verknüpfungen lassen sich nicht einfach herausfiltern, ohne die Funktionalität der Modelle signifikant einzuschränken.

Das stellt uns in die Minderheit von 17 Prozent. Diese Minderheitsposition halten wir für richtig – nicht aus prinzipieller Strenge, sondern weil wir die technischen Gegebenheiten ernst nehmen. Wer Anonymität an Bedingungen knüpft, die niemand zuverlässig überprüfen kann, schafft keinen Schutz, sondern eine Fiktion.

Beim Extraktionsrisiko verorten wir uns auf der Seite derer, die es als real betrachten. Die Datenlage ist eindeutig: Modelle memorisieren Trainingsdaten, und diese lassen sich unter bestimmten Bedingungen rekonstruieren. Eine Haltung, die das kleinredet, ignoriert einen gut belegten Befund der KI-Forschung.

Technische Maßnahmen: Symptombekämpfung reicht nicht

Ein zentrales Ergebnis des Konsultationsberichts: Die Mehrheit der Einsendenden befürwortet technische Maßnahmen wie Deduplikation, Differential Privacy und Output-Filter als sinnvolle Schutzinstrumente. Dem widersprechen wir grundsätzlich nicht – aber wir warnen vor dem Missverständnis, dass damit bereits ein ausreichendes Schutzniveau erreicht werden könne.

Deduplikation entfernt redundante Einträge, verhindert aber keine Memorisierung. Differential Privacy verbessert formale Garantien, geht aber systematisch auf Kosten der Modellqualität. Output-Filter greifen erst, wenn eine Abfrage bereits stattgefunden hat – sie entfernen nichts aus dem Modell selbst. All diese Maßnahmen bekämpfen Symptome. Die eigentliche Ursache – dass personenbezogene Daten ins Modell eingeflossen sind – bleibt unberührt.

Wir brauchen daher keine Auswahl-Mentalität bei technischen Schutzmaßnahmen, sondern eine ehrliche Auseinandersetzung mit ihren Grenzen.

Betroffenenrechte: Systemlösungen ersetzen keine Individualrechte

Beim Thema Betroffenenrechte wurde vorgeschlagen, bei Auskunftsersuchen eine Kopie der betreffenden Trainingsdaten bereitzustellen; für Löschansprüche sollen vorrangig Maßnahmen auf Systemebene – also Output-Filter und Guardrails – zum Einsatz kommen. Machine Unlearning, das gezielte Entlernen einzelner Datenpunkte, wird als technisch noch nicht zuverlässig genug eingestuft.

Wir teilen die Einschätzung zur aktuellen Reife von Machine Unlearning – aber wir lehnen es ab, daraus den Schluss zu ziehen, Systemlösungen seien ein hinreichender Ersatz für individuelle Rechte. Wer sich auf Output-Filter verlässt, akzeptiert, dass personenbezogene Daten im Modell verbleiben und nur an der Oberfläche abgeblockt werden. Das ist kein reeller Datenschutz.

Unsere Forderungen bleiben deshalb bestehen:

Betreiber müssen nachweisen können, wo die Daten einer betroffenen Person in den Trainingsdaten vorhanden sind.
Betroffene haben Anspruch auf Kopien der relevanten Datensegmente.
Löschbegehren müssen technisch implementiert werden – durch De-Learning-Verfahren, sobald diese ausgereift sind, und durch klare Übergangsregelungen bis dahin.
Standardisierte Qualitätskontrollen und Audit-Logs müssen sicherstellen, dass Angaben zu realen Personen verifizierbar sind.

Fazit: Der Bericht ist ein Anfang, keine Antwort

Die BfDI hat mit dieser Konsultation etwas Wichtiges geleistet: Sie hat die Debatte strukturiert und sichtbar gemacht, wie weit die Positionen auseinanderliegen. Das ist wertvoll. Aber der Bericht ist kein Beschluss und keine Leitlinie – er ist eine Bestandsaufnahme.

Die eigentliche Arbeit beginnt jetzt. Datenschutzbehörden müssen auf Grundlage dieser Erkenntnisse klare Durchsetzungsstandards entwickeln. Unternehmen müssen aufhören, technische Unzulänglichkeiten als Argument gegen rechtliche Verpflichtungen zu verwenden. Und die Zivilgesellschaft muss weiter darauf bestehen, dass der Schutz personenbezogener Daten kein Hindernis für Innovation ist – sondern eine Grundbedingung für Vertrauen.

Zur Stellungnahme

Der Verein

Team

Werte

Presse

D64 ist ein Mitgliederverein

Mitmachen

Unterstützen

Jobs

Veranstaltungen

Projekte

Medien

Tools

Themen

Seiten

NAVIGATION