DSGVO-konforme KI-Features in deinem SaaS bauen

Säule 1: Auftragsverarbeitungsverträge die KI tatsächlich abdecken

DSGVO Artikel 28 verlangt einen schriftlichen Vertrag zwischen Verantwortlichem und Auftragsverarbeiter. Wenn dein SaaS-Produkt KI-Features hinzufügt, deckt dein bestehender AVV fast sicher nicht ab, was passiert.

Das Problem: Ein traditioneller AVV sagt "der Auftragsverarbeiter verarbeitet personenbezogene Daten nur nach dokumentierten Weisungen." Das reicht für Standard-SaaS. Aber wenn KI ins Spiel kommt, ist die Verarbeitung fundamental anders: Daten werden analysiert, Muster extrahiert, Vorhersagen generiert, und möglicherweise Modelle trainiert.

Bei GrowCentric.ai habe ich das auf die harte Tour gelernt. Die Plattform optimiert Marketing-Kampagnen mit Machine Learning. Wenn ein Kunde seine Kampagnendaten verbindet, analysiert das System Conversion-Muster, Zielgruppen-Verhalten und Budget-Effektivität.

Was dein KI-spezifischer AVV braucht:

Verarbeitungsumfang und -zweck: Spezifiziere Inferenz (Vorhersagen generieren), Analyse (Muster extrahieren), Feature-Extraktion (analytische Features aus personenbezogenen Daten ableiten), und falls zutreffend, Modelltraining.

Sub-Processor-Ketten: KI-Features bringen oft unerwartete Sub-Prozessoren. GPU-Provider für Modellinferenz? Sub-Processor. NLP-Service bei Stint.co? Sub-Processor. Jeder muss gelistet sein.

Modell-Training-Einschränkungen: Wird Kundendaten für Training verwendet? Welche Art? Wie werden Daten zwischen Kunden isoliert? Bei GrowCentric.ai steht im AVV explizit: Keine Cross-Client-Trainingsnutzung.

Datenresidenz für KI-Infrastruktur: Wenn deine Rails-App auf EU-Servern läuft, aber ML-Modelle auf US-GPUs, hast du ein Transfer-Problem.

Automatisierte Entscheidungsfindung: Artikel 22 gibt Betroffenen das Recht, nicht automatisierten Entscheidungen unterworfen zu werden.

Ich nutze eine maschinenlesbare AI Processing Schedule als AVV-Anlage, die jede KI-Verarbeitungsaktivität dokumentiert: Name, Zweck, Datenkategorien, Anonymisierungsmethode, Rechtsgrundlage, Sub-Prozessoren, Datenresidenz, Aufbewahrung und Trainingsnutzung.

Säule 2: Privacy by Design das im Code funktioniert

Artikel 25 verlangt Datenschutz "durch Technikgestaltung und datenschutzfreundliche Voreinstellungen." Das klingt abstrakt, übersetzt sich aber in sieben konkrete Architekturentscheidungen:

Entscheidung 1: Zweckbindung auf Modellebene. Jedes KI-Modell deklariert seinen Zweck und ist architektonisch darauf beschränkt. Eine Empfehlungsengine darf nicht als Profiling-Tool umfunktionierbar sein. Im Code: Ein PurposeBoundModel mit erlaubten und verbotenen Inputs, das eine PrivacyViolationError wirft wenn verbotene Daten ankommen.

Entscheidung 2: Datenminimierung im Feature Engineering. Die Feature-Engineering-Pipeline ist wo die meisten Datenschutzverletzungen passieren. Ein FEATURE_REGISTRY dokumentiert für jedes Feature: Quelle, Extraktionsmethode, Minimierungsmaßnahme und Notwendigkeit.

Entscheidung 3: Pseudonymisierung als Standard. Jedes personenbezogene Datum wird pseudonymisiert, bevor es ein Modell erreicht. Gemäß EDPB-Leitlinien 01/2025: Identifikatoren durch Token ersetzen, Mapping separat speichern, Zugriff auf Mapping beschränken. HMAC-basierte Pseudonyme, deterministisch innerhalb eines Mappings, verschieden über Mappings hinweg.

Entscheidung 4: Einwilligungsbewusste Datenpipelines. Die Pipeline muss wissen, worin jeder Nutzer eingewilligt hat. Bei Stint.co, wo wir E-Mails an große Zielgruppen senden, ist das entscheidend. Ob Engagement-Daten in KI-gestützte Analytics fließen, hängt von der individuellen Einwilligung ab.

Entscheidung 5: Automatisierte Aufbewahrungsdurchsetzung. Ein täglicher Sidekiq-Job der verschiedene Aufbewahrungsfristen durchsetzt: 90 Tage für Rohdaten, 12 Monate für Engagement-Events, 30 Tage für Suchlogs, 6 Monate für Training-Features, 90 Tage für Pseudonym-Mappings, 5 Jahre für Einwilligungsnachweise.

Entscheidungen 6 und 7: Rechtskonforme Inferenz und transparentes Logging. Verbinden sich direkt mit der Audit-Logging- und Tiered-Autonomy-Architektur aus dem EU-KI-Verordnung-Post und dem Agentic-AI-Post.

Das ist finanziell relevant. Sambla Group: 950.000 Euro für Artikel-25-Verstöße. Meta: 251 Millionen Euro für fehlende Privacy by Design. Spanische DSB: 3 Millionen Euro für Artikel-25-Verstöße bei Zugangskontrollen.

Säule 3: DSFAs die nicht in der Schublade liegen

Artikel 35 verlangt eine DSFA wenn Verarbeitung "voraussichtlich ein hohes Risiko für die Rechte und Freiheiten" mit sich bringt. Die neun EDPB-Kriterien für KI-Features lösen fast immer mindestens zwei aus: systematische Bewertung, automatisierte Entscheidungen, innovative Technologie, großflächige Verarbeitung.

Eine nützliche DSFA ist ein lebendes technisches Artefakt das neben deinem Code lebt:

Abschnitt 1: Verarbeitungsbeschreibung (Datenkategorien, Betroffene, Umfang, Zweck, Technologie). Abschnitt 2: Notwendigkeit und Verhältnismäßigkeit (Rechtsgrundlage, Zweckbindung, Minimierung, Speicherbegrenzung, Betroffenenrechte). Abschnitt 3: Risikobewertung gegen alle neun EDPB-Kriterien. Abschnitt 4: Mitigationsmaßnahmen. Abschnitt 5: DSB-Konsultation.

Am Beispiel der GrowCentric.ai-Zielgruppensegmentierung: Drei Kriterien ausgelöst (Bewertung/Scoring, innovative Technologie, großflächige Verarbeitung). Risiken: diskriminierende Zielgruppenansprache, opakes Profiling, Datenlecks. Mitigationen: anonymisierte aggregierte Daten (mindestens 50 Nutzer pro Kohorte), geschützte Merkmale ausgeschlossen, transparente auditierbare Segmente. Restrisiko: niedrig.

Der DSFA-Lifecycle-Manager triggert Überprüfungen bei Änderungen: neue Datenkategorie, neuer Sub-Processor, Skalenerhöhung, neue automatisierte Entscheidung, Modellarchitektur-Änderung.

Wie alles zusammenhängt

Diese drei Säulen sind Schichten einer Architektur: Der AVV definiert erlaubte Verarbeitung. Privacy by Design erzwingt diese Erlaubnisse im Code. Die DSFA bewertet ob die Implementierung funktioniert.

Und sie verbinden sich mit allem anderen: Machine Unlearning Post (Löschung), EU-KI-Verordnung (Transparenz und Risikomanagement), CRA (Sicherheit), NIS2 (Meldepflichten).

Dieselben Muster gelten überall. GrowCentric.ai für Marketing-Optimierung. Stint.co für E-Mail-Engagement-Analytics. Regios.at für regionale Suche. Auto-Prammer.at für Fahrzeugempfehlungen auf Solidus.

Die 10-Punkte-Checkliste

Bevor du ein KI-Feature shippst:

AVV aktualisiert?
Sub-Prozessoren gelistet?
Zweck dokumentiert?
Daten minimiert?
Pseudonymisierung angewandt?
Einwilligung geprüft?
Aufbewahrung durchgesetzt?
Audit-Trail aktiv?
DSFA abgeschlossen?
Menschliche Aufsicht implementiert?

Zehn Mal Ja = du bist gut aufgestellt.

Das Fazit

DSGVO-Compliance für KI-Features kommt auf drei Dokumente und sieben Architekturentscheidungen herunter. Die Dokumente: AVV, Privacy-by-Design-Dokumentation, DSFA. Die Entscheidungen: Zweckbindung, Datenminimierung, Pseudonymisierung, Einwilligungsbewusstsein, Aufbewahrungsdurchsetzung, rechtskonforme Inferenz, transparentes Logging.

Nichts davon erfordert einen Jura-Abschluss. Es erfordert eine Ingenieursdenkweise angewandt auf rechtliche Anforderungen. Schreib die Compliance in deinen Code, nicht in ein Dokument das in der Schublade liegt.

Kumulierte DSGVO-Bußgelder übersteigen 6,7 Milliarden Euro. DSBs ermitteln aktiv gegen SaaS-Unternehmen aller Größen. Und mit der EU-KI-Verordnung ab August 2026 steigt die Compliance-Latte nur weiter.

Die gute Nachricht: Wenn du diese Muster einmal baust, funktionieren sie überall.