Skip to main content
#1Methoden

Automatisches Vergessen: Verantwortungsvolles Datenmanagement und Maschinelles Lernen

Magazin #1 | Sommer 2022

Automatisches Vergessen

Verantwortungsvolles Datenmanagement und Maschinelles Lernen

Angesichts des immer weiter reichenden Einsatzes von KI-Systemen in unserem Alltag, muss unser Recht auf Vergessen werden besser durchgesetzt werden – wie ein Fall aus den Niederlanden besonders drastisch darlegt. Dort hatte ein Paar durch eine Totgeburt das gemeinsame Kind verloren. Als zusätzliche traumatisierende Erfahrung wurde den beiden weiterhin dauernd Online-Werbung für Babyprodukte angezeigt. Auf Nachfrage antwortete das verantwortliche E-Commerce-Unternehmen, dass es nicht über die technischen Mittel verfügen würde, die Online-Empfehlungen auszuschalten.

Solche Online-Empfehlungen basieren auf automatisierten Entscheidungssystemen (ADM-Systemen). Das sind KI-Anwendungen, die immer häufiger eingesetzt werden, um automatisierte Entscheidungen zu treffen, die einen Einfluss auf unser Leben haben: zum Beispiel bei Kredit- und Leihgeschäften, medizinischen Diagnosen oder auch bei Einstellungsverfahren. Diese Systeme basieren auf Beispieldaten. Mithilfe verschiedener Techniken des Maschinellen Lernens werden aus diesen Beispielen Vorhersagemodelle abgeleitet. Mit ihnen gehen bestimmte Risiken einher, die sich unter anderem aus den technischen Herausforderungen beim Verwalten der Daten ergeben, die von ADM-Systemen gespeichert und verarbeitet werden. Das obige Beispiel zeigt: Datenschutz und Selbstbestimmung über die eigenen Daten müssen verteidigt werden.

Technischer Bias kann durch Datenverarbeitungs­systeme hervorgerufen werden.

Ein großer Teil der aktuellen Diskussion über die Fairness automatisierter Entscheidungen konzentriert sich auf soziale Vorurteile, die häufig über Beispieldaten Eingang in die Systeme finden. Sogenannter technischer Bias in den Daten entsteht durch bestimmte Verarbeitungsschritte. Das Risiko, dass technischer Bias in datengestützten Entscheidungssystemen zu finden ist, ist sehr hoch. Jedoch kann dieses Problem technisch gelöst werden, was im Fall des gesellschaftlichen Bias nicht möglich ist.

Technischer Bias resultiert aus den Laborbedingungen, unter denen Fachleute normalerweise die algorithmischen Komponenten von ADM-Systemen designen. Sie arbeiten mit einem festen und eindeutigen Trainingsdatensatz und probieren verschiedene algorithmische Ansätze aus, um ein Vorhersagemodell zu finden, das mit dem gegebenen Datensatz gut funktioniert. Sobald das vollständige ADM-System allerdings entwickelt wurde und in der Praxis eingesetzt wird, ändert sich der Modus der Datenproduktion für das Vorhersagemodell.

ADM-Systeme verarbeiten im Regelfall Daten aus unterschiedlichen Quelle, die kontinuierlich neue Daten produzieren. Das Vorhersagemodell muss regelmäßig an diese neuen Daten angepasst werden. Daten aus allen Quellen müssen im System zusammengeführt und in einer Form aufbereitet werden, die das Vorhersagemodell versteht. In diesem Verarbeitungsprozess kann technischer Bias durch Programmierfehler oder die falsche Darstellung von Gruppen in den generierten Daten auftreten. Auch scheinbar harmlose Abläufe können dazu führen: wenn etwa demografische Daten bei der Datenvorbereitung auf Grundlage von Postleitzahlen gefiltert werden, da der Wohnort mit sensiblen demografischen Daten wie Alter, Einkommen oder Ethnizität korreliert. In der Folge trifft das Modell möglicherweise weniger verlässliche Voraussagen für Gruppen oder Personen, da sie in den Daten durch Filtervorgänge falsch repräsentiert sind.

Das Recht auf vergessenwerden sieht ein baldiges Löschen vor.

Das Datenmanagement in ADM-Systemen weist eine orthogonale Dimension auf, was das Einhalten von Gesetzen betrifft, die den Schutz der Privatsphäre und Rechte der digitalen Selbstbestimmung garantieren. Ein bekanntes Beispiel ist das „Recht auf Vergessenwerden“ (Artikel 17 der Datenschutz-Grundverordnung). Es verpflichtet Unternehmen und Institutionen, die persönliche Daten verarbeiten, auf Anfrage Daten von Nutzer*innen ohne unnötigen Verzug durch angemessene und effektive Maßnahmen zu löschen. In der Praxis ist dies gegenwärtig ein eher zäher und langwieriger Prozess. Es kann beispielsweise bis zu zwei Monate dauern, bis Daten aus aktiven Systemen in der Google-Cloud gelöscht werden.

Deshalb brauchen wir ADM-Systeme mit Funktionen, die Lernvorgänge rückgängig machen. Das würde ihnen ermöglichen, Interaktionsdaten von Nutzer*innen nach einer entsprechenden Anfrage zu löschen und gleichzeitig die Voraussagen anzupassen, die das System erstellt. Beim Aktualisieren bestehender Vorhersagemodelle stellt dies jedoch hinsichtlich der Effizienz der Algorithmen und Berechnungen eine große Herausforderung dar.

Industrie und Forschung haben gerade erst begonnen, sich diesen Herausforderungen zu stellen. Selbst wenn die technologischen Grundlagen für ein verantwortungsvolles Datenmanagement in ADM-Systemen gegeben wären, würden wir Best-Practice-Lösungen benötigen. Um solche zu finden, müssen wir Zugang zu in der Praxis eingesetzten ADM-Systemen haben. Bislang bleibt uns dieser Zugang verwehrt, da die meisten dieser Systeme proprietär gehandhabt und von Privatunternehmen betrieben werden.

Hintergrund

Selbstbestimmung und Datenschutz

Dimension:

Soziale Nachhaltigkeit

Kriterium:

Selbstbestimmung und Datenschutz

Indikator:

Sicherstellung der informationellen Selbstbestimmung

Menschen sollten stets die Autonomie über ihre persönlichen Daten behalten. Zu diesem Zweck eignen sich einfache Visualisierungen sowie Benachrichtigungs-, Zustimmungs- und Widerrufmechanismen. Nutzer*innen sollten darüber informiert werden, wenn KI-Systeme persönliche Daten verwenden oder sammeln. Sie sollten über den Einsatz ihrer Daten mitbestimmen können und nicht durch verhaltensbeeinflussende Mechanismen wie Nudging oder Dark Patterns in ihrem selbstbestimmten Handeln eingeschränkt werden.

DR. SEBASTIAN SCHELTER

Juniorprofessor an der Universität Amsterdam

… forscht an der Schnittstelle zwischen Datenmanagement und Maschinellem Lernen (ML). Er beschäftigt sich insbesondere mit datenspezifischen Problemen bei ML-Anwendungen: mit der automatischen Validierung von Datenqualität, mit Prüfverfahren für ML-Pipelines oder auch mit dem Design von ML-Anwendungen, die Daten vergessen. Sebastian Schelter veröffentlicht den Großteil des im Rahmen seiner Forschung entstehenden Quellcodes unter einer Open- Source-Lizenz. Er ist gewähltes Mitglied in der Apache Software Foundation.