Skip to content

BfDI veröffentlicht Konsultationsbericht zu KI-Modellen und Datenschutz – wenig Einigkeit und viele Unklarheiten

Wir nehmen die Veröffentlichung des Berichts der BfDI zum Konsultationsverfahren "KI-Modelle und personenbezogene Daten" zum Anlass, unsere Position mit den Ergebnissen der Konsultation zu vergleichen und zu erklären, warum wir in zentralen Punkten anderer Meinung sind.
Bild: D64/Fionn Große
Foto: D64/Fionn Große

Die Bundesbeauftragte für den Datenschutz und die Informationsfreiheit (BfDI) hat ihren Bericht zum öffentlichen Konsultationsverfahren „KI-Modelle und personenbezogene Daten“ veröffentlicht. Dreißig Stellungnahmen wurden eingereicht – von Unternehmen, Verbänden, Forschungseinrichtungen und der Zivilgesellschaft. Eine davon war von D64 – Zentrum für Digitalen Fortschritt. Wir nehmen die Veröffentlichung zum Anlass, die D64-Position mit den Ergebnissen der Konsultation zu vergleichen – und zu erklären, warum wir in zentralen Punkten anderer Meinung sind.

Was der Bericht zeigt: viel Einigkeit in der Diagnose, wenig in der Therapie

Der BfDI-Bericht fasst eine tief gespaltene Debatte zusammen. Bei der Grundsatzfrage, ob große Sprachmodelle unter die DSGVO fallen, besteht weitgehend Einigkeit: Large Language Models (LLMs) verarbeiten personenbezogene Daten, der Rechtsrahmen gilt. Doch schon bei der nächsten Frage – wann und unter welchen Bedingungen ein Modell als „anonym“ gelten kann – gehen die Einschätzungen stark auseinander. 67 Prozent der Einsendenden sprachen sich für eine risikobasierte Betrachtung aus: Anonymität sei demnach situationsabhängig möglich. 17 Prozent waren der Ansicht, ein LLM könne niemals als anonym gelten. Weitere 17 Prozent hielten LLMs grundsätzlich für anonym.

Ähnlich uneinheitlich ist das Bild beim Extraktionsrisiko: 37 Prozent schätzen die Gefahr, dass personenbezogene Daten aus trainierten Modellen extrahiert werden können, als real und hoch ein – 27 Prozent hingegen als gering. Bei technischen Schutzmaßnahmen und Betroffenenrechten zeichnen sich ähnliche Gräben ab.

Wo wir stehen – und warum

In unserer Stellungnahme haben wir eine klare Position eingenommen: Eine vollständige Anonymisierung beim Training großer Sprachmodelle ist theoretisch denkbar, aber praktisch unmöglich. Personenbezogene Daten sind strukturell in Trainingsquellen eingebettet – in wissenschaftlichen Arbeiten, Gerichtsentscheidungen, Nachrichtenartikeln –, und diese Verknüpfungen lassen sich nicht einfach herausfiltern, ohne die Funktionalität der Modelle signifikant einzuschränken.

Das stellt uns in die Minderheit von 17 Prozent. Diese Minderheitsposition halten wir für richtig – nicht aus prinzipieller Strenge, sondern weil wir die technischen Gegebenheiten ernst nehmen. Wer Anonymität an Bedingungen knüpft, die niemand zuverlässig überprüfen kann, schafft keinen Schutz, sondern eine Fiktion.

Beim Extraktionsrisiko verorten wir uns auf der Seite derer, die es als real betrachten. Die Datenlage ist eindeutig: Modelle memorisieren Trainingsdaten, und diese lassen sich unter bestimmten Bedingungen rekonstruieren. Eine Haltung, die das kleinredet, ignoriert einen gut belegten Befund der KI-Forschung.

Technische Maßnahmen: Symptombekämpfung reicht nicht

Ein zentrales Ergebnis des Konsultationsberichts: Die Mehrheit der Einsendenden befürwortet technische Maßnahmen wie Deduplikation, Differential Privacy und Output-Filter als sinnvolle Schutzinstrumente. Dem widersprechen wir grundsätzlich nicht – aber wir warnen vor dem Missverständnis, dass damit bereits ein ausreichendes Schutzniveau erreicht werden könne.

Deduplikation entfernt redundante Einträge, verhindert aber keine Memorisierung. Differential Privacy verbessert formale Garantien, geht aber systematisch auf Kosten der Modellqualität. Output-Filter greifen erst, wenn eine Abfrage bereits stattgefunden hat – sie entfernen nichts aus dem Modell selbst. All diese Maßnahmen bekämpfen Symptome. Die eigentliche Ursache – dass personenbezogene Daten ins Modell eingeflossen sind – bleibt unberührt.

Wir brauchen daher keine Auswahl-Mentalität bei technischen Schutzmaßnahmen, sondern eine ehrliche Auseinandersetzung mit ihren Grenzen.

Betroffenenrechte: Systemlösungen ersetzen keine Individualrechte

Beim Thema Betroffenenrechte wurde vorgeschlagen, bei Auskunftsersuchen eine Kopie der betreffenden Trainingsdaten bereitzustellen; für Löschansprüche sollen vorrangig Maßnahmen auf Systemebene – also Output-Filter und Guardrails – zum Einsatz kommen. Machine Unlearning, das gezielte Entlernen einzelner Datenpunkte, wird als technisch noch nicht zuverlässig genug eingestuft.

Wir teilen die Einschätzung zur aktuellen Reife von Machine Unlearning – aber wir lehnen es ab, daraus den Schluss zu ziehen, Systemlösungen seien ein hinreichender Ersatz für individuelle Rechte. Wer sich auf Output-Filter verlässt, akzeptiert, dass personenbezogene Daten im Modell verbleiben und nur an der Oberfläche abgeblockt werden. Das ist kein reeller Datenschutz.

Unsere Forderungen bleiben deshalb bestehen:

  • Betreiber müssen nachweisen können, wo die Daten einer betroffenen Person in den Trainingsdaten vorhanden sind.
  • Betroffene haben Anspruch auf Kopien der relevanten Datensegmente.
  • Löschbegehren müssen technisch implementiert werden – durch De-Learning-Verfahren, sobald diese ausgereift sind, und durch klare Übergangsregelungen bis dahin.
  • Standardisierte Qualitätskontrollen und Audit-Logs müssen sicherstellen, dass Angaben zu realen Personen verifizierbar sind.

Fazit: Der Bericht ist ein Anfang, keine Antwort


Die BfDI hat mit dieser Konsultation etwas Wichtiges geleistet: Sie hat die Debatte strukturiert und sichtbar gemacht, wie weit die Positionen auseinanderliegen. Das ist wertvoll. Aber der Bericht ist kein Beschluss und keine Leitlinie – er ist eine Bestandsaufnahme.

Die eigentliche Arbeit beginnt jetzt. Datenschutzbehörden müssen auf Grundlage dieser Erkenntnisse klare Durchsetzungsstandards entwickeln. Unternehmen müssen aufhören, technische Unzulänglichkeiten als Argument gegen rechtliche Verpflichtungen zu verwenden. Und die Zivilgesellschaft muss weiter darauf bestehen, dass der Schutz personenbezogener Daten kein Hindernis für Innovation ist – sondern eine Grundbedingung für Vertrauen.

Foto von AG Datenschutz

AG Datenschutz

Die AG Datenschutz befasst sich mit verschiedenen Aspekten im Zusammenhang mit Daten. Wir erarbeiten, wie diese zum Wohle der Bevölkerung genutzt werden können und wie die Privatsphäre aller Bürger:innen geschützt werden kann. Dabei geht es insbesondere um Tracking im Internet, Gesichtserkennung, Videoüberwachung und Open Data.

Mitwirkende

Susanne Klausing , Torben Dzillak , Bendix Sältz

Auch Interessant

D64-Mitglieder stehen auf einer grünen Wiese vor einer Veranstaltungshalle und diskutieren. Bild: D64/Fionn Große

Positionspapier: Grundwerte in der digitalisierten Gesellschaft

Acht Jahre nach der Erstauflage veröffentlichen wir eine grundlegend überarbeitete Neufassung unseres Positionspapiers zur Vereinbarkeit von Künstlicher Intelligenz mit den Grundwerten Freiheit, Gerechtigkeit und Solidarität.
weiterlesen
Foto: Fahne auf der D64 – Zentrum für Digitalen Fortschritt steht.

(Digitale) sexualisierte Gewalt effektiv bekämpfen!

Sexualisierte Gewalt ist für viele Menschen in unserer Gesellschaft eine bittere Realität. Jede dritte Frau in Deutschland erlebt in ihrem Leben mindestens einmal sexualisierte Gewalt. Wir solidarisieren uns ausdrücklich mit allen Betroffenen.
weiterlesen