Magazin #1 | Sommer 2022
Weniger bringt mehr: Warum Künstlicher Intelligenz eine Datendiät guttun kann
Interview mit Dr. Michaela Regneri
Die Computerlinguistin Michaela Regneri untersuchte für den Hamburger Plattformanbieter OTTO KI-Anwendungen für den E-Commerce. Sie entwickelte Empfehlungsalgorithmen weiter, die für die Shopping-Plattform strategisch relevant sind und gleichzeitig in der KI-Entwicklung Ressourcen schonen. Als Verfechterin des Datenminimalismus möchte sie den Ansatz als Effizienzstrategie für Künstliche Intelligenz in der Data Economy etablieren. Dabei gilt es, möglichst wenige Daten so gezielt einzusetzen, dass keine Qualitätseinbußen bei der Leistung des Systems zu erwarten sind.
Interview mit
Dr. Michaela Regneri
”Eine aufwendige Datenverarbeitung erfordert mehr Personal und teure Systeme und nimmt Zeit in Anspruch.
Minimalismus beziehen wir auf die Datenmengen, die wir mit KI verarbeiten. Wir sind von der Frage ausgegangen: Was sind eigentlich die Daten wert, die wir verarbeiten? Die Frage ist ökonomisch und ökologisch interessant, weil wir Effizienz anstreben. Wir wollen eine KI, die das tut, was sie soll. Aber sie soll das so effizient und effektiv wie möglich machen. Je kleiner also die Datenmenge für die gleiche Leistung, desto besser das Ergebnis.
Bei unserem einjährigen Projekt bei OTTO haben wir uns zunächst gefragt, wie wir berechnen können, was von den jeweiligen Datenpunkten oder vom gesamten Datentopf überhaupt wertvoll für die KI ist. Wir wollten also den nutzungsbasierten Datenwert ermitteln. Dazu haben wir praktische Experimente durchgeführt und die einzelnen Algorithmen daraufhin geprüft, ob es das System wirklich weiterbringt, wenn wir sie mit Daten füttern: Welche Daten führen beim Algorithmus zu besseren Ergebnissen und welche lassen ihn schlechter werden? Irgendwann trat eine Sättigung ein und es wurde ineffizient, neue Daten hinzuzufügen.
Wir haben unterschiedliche Wege ausprobiert. Die einfachste Methode besteht darin, Daten wegzulassen und zu schauen, wie gut der Algorithmus mit der Hälfte der Daten, mit einem Drittel oder mit zwei Drittel der Daten funktioniert. So eine Sensibilitätsanalyse funktioniert im Prinzip wie ein umgekehrter Allergietest. Bei Allergien wird nach schädlichen Einflüssen gesucht, wir haben positive Einflussdaten identifiziert. Wenn ein Datenpunkt ausgelassen wird und das System wird besser, dann war es wahrscheinlich ein schlechter Datenpunkt. Wenn er ausgelassen wird und es passiert gar nichts, dann ist er für das Funktionssystem unnötig. Wenn das System schlechter wird, haben wir einen wertvollen Datenpunkt entdeckt.
Oft ist die Tendenz da, alles reinzustecken, was zur Verfügung steht. Aber gerade in industriellen Umgebungen liegen oft sehr viele Daten vor. Dann ist es manchmal gar nicht nötig, alles zu nutzen. Es lassen sich dann vielleicht noch minimale Verbesserungen von einem halben Prozent herbeiführen. Aber wirklich effizient kann der Algorithmus nur sein, wenn schädliche Daten entfernt werden. Wir hatten zum Beispiel konkret das Problem, dass manchmal Bots auf der Seite abgelassen werden. Die klicken wild im Shop herum oder sie klicken sogar speziell auf bestimmte Artikel, damit die so aussehen, als seien sie beliebt. So etwas schadet dem System natürlich. Manchmal schaden wir der KI sogar selber unabsichtlich, wenn wir zum Beispiel eine Marketingaktion wie den Deal des Tages haben. Das ist ein günstiger Artikel, den viele anklicken.
Das Problem ist aber, dass die Menschen sich nicht zwingend für den Artikel selbst interessieren, sondern nur für den Rabatt. Wir haben es also nicht mit ihrem natürliche Kaufverhalten zu tun, sondern mit ihrer Reaktion auf etwas, was wir provoziert haben. Aus diesem Grund ist es dann schwierig, daraus Rückschlüsse für die KI zu ziehen.
”Wir wählen diejenigen Daten aus, die wirklich wichtige Informationen enthalten.
Datenminimalismus senkt Kosten. Eine aufwendige Datenverarbeitung erfordert mehr Personal und teure Systeme und nimmt darüber hinaus Zeit in Anspruch. Datenschutz und Compliance bringen einen zusätzlichen Aufwand mit sich. Je weniger Daten in der Cloud verwaltet werden, desto weniger Kosten verursacht die Cloud. Das Modell kann schneller trainiert werden und es hat ein größeres Innovationspotenzial, weil die Innovationsschleifen kürzer werden. Die Algorithmen können schneller getestet werden. Letzten Endes führt das Weglassen schädlicher Datenpunkte zu einer besseren Performance und dies bedeutet im wirtschaftlichen Kontext immer einen größeren Gewinn.
Wo immer Daten gespart werden, werden auch Privacy und Cybersicherheit besser. Jeder sensible Datenpunkt, der unnötig bewegt wird, stellt ein unnötiges Sicherheitsrisiko dar. Außerdem kann Datenminimalismus dabei helfen, diskriminierende Muster in Datensätzen einzudämmen.
Normalerweise wird immer argumentiert, dass sehr viele Daten benötigt werden, damit der Datensatz ausgeglichen und nicht diskriminierend ist. Allerdings gibt es ein paar alte Techniken, um Diskriminierung zu vermeiden, die darauf basieren, Datensätze kleiner zu machen. Sie kommen aus der Medizin und der medizinischen Statistik. Die interessanteste Gruppe für die Medizin ist die kleinste, nämlich die der Kranken. Um bei medizinischen Anwendungen dieser Gruppe gerecht zu werden, besteht die Möglichkeit, die größere Gruppe der Gesunden zu verkleinern. Dies lässt sich datenminimalistisch verstehen: Wir wählen diejenigen Daten aus, die wirklich wichtige Informationen enthalten, und sorgen dafür, dass eine Gruppe nicht größer ist, als es für das angestrebte Ergebnis nötig ist. Dadurch bekommen relativ gesehen auch Minderheiten oder kleinere Gruppen ein höheres Gewicht.
Ein völlig konsequenter Datenminimalismus würde vollständig erklärbare KI-Systeme zur Folge haben. Zumindest in dem Sinne, dass wir ganz genau wissen würden, was einzelne Datenpunkte oder Datentöpfe im KI-System bewirken. Was wiederum bedeutet, dass wir auch vorhersagen könnten, welche Daten im Algorithmus einen diskriminierenden Einfluss haben werden.
Das Besondere an dem Projekt war für mich, überhaupt angewandte Forschung betreiben zu können. Universitäten stehen nur begrenzt Daten zur Verfügung. Für große Konzerne ist es kein Problem, viele Daten zu verwalten, weil sie die Rechen- und Finanzkapazitäten haben. Bei OTTO konnten wir diese Daten einsetzen, um selber KI-Algorithmen zu bauen. Wir wollten aber nicht unökologisch blind alles irgendwo reinstecken, nur weil es möglich war. Weniger Daten bedeuten nämlich weniger Rechenzeit und weniger CO2-Emissionen. Einfach dadurch, dass weniger verbraucht wird. Der Energieverbrauch zieht sich durch die ganze Daten-Wertschöpfungskette. Der Stromverbrauch wächst linear mit der Datenmenge, die im Algorithmus verarbeitet wird.
Aber es gibt weder in der Wissenschaft noch in der Industrie zuverlässige und bewährte Methoden, die diese Folgen berücksichtigen und eindämmen. Und da müssen wir unbedingt etwas tun. Wenn das mit KI und Nachhaltigkeit was werden soll, müssen Regierungsstellen genau solche Kooperationen fördern, wie wir sie bei OTTO zwischen Wissenschaft und Industrie hatten.
Hintergrund
Energieverbrauch
Dimension:
Ökologische Nachhaltigkeit
Kriterium:
Energieverbrauch
Indikator:
Es werden Maßnahmen zur Reduktion der Datenmengen eingesetzt
Der Energieverbrauch eines KI-Systems unterscheidet sich je nach der jeweiligen Phase im Lebenszyklus. Die Entwicklungsphase neuer KI-Modelle kann trotz zunehmend effizienter Hardware extrem energieintensiv sein. Insbesondere das Finden der gewünschten Modellarchitektur erfordert mitunter eine immense Rechenleistung. Der Energieverbrauch in der Trainings- und vor allem der Anwendungsphase ist deutlich geringer. Jedoch wer- den diese Phasen im Gegensatz zur Entwicklung, die lediglich einen einmaligen Vorgang darstellt, mitunter massenhaft wiederholt. Datenminimalistische Ansätze sind eine Möglichkeit, den Energiebedarf in der Trainings- und Anwendungsphase zu reduzieren, indem die für Training und Anwendung genutzten Datensätze klein gehalten werden.
Selbstbestimmung und Datenschutz
Dimension:
Soziale Nachhaltigkeit
Kriterium:
Selbstbestimmung und Datenschutz
Indikator:
Ein Privacy-by-Design-Ansatz wird konsequent umgesetzt.
Ein konsequenter Privacy-by-Design-Ansatz berücksichtigt bereits in der Planung und Entwicklung von digitalen Technologien Datenschutz- und Sicherheitsinteressen. Die Datenschutz-Grundverordnung (DSGVO) fordert ein Privacy-by-Design sogar ein, lässt aber bei der Umsetzung Spielräume. Privacy-by-Design bedeutet zum Beispiel, dass Daten verschlüsselt und anonymisiert, sparsam eingesetzt und nicht unnötig zusammengeführt werden. Datenminimalismus ist somit ein integraler Bestandteil von Privacy-by-Design. Bei einer datenminimalistischen KI-Entwicklung können durch ein gutes Datenmanagement und eine hohe Qualität der ausgewählten Daten Diskriminierungsrisiken bei KI-Anwendungen reduziert werden. Gleichzeitig lassen sich dadurch Ressourcen bei der erforderlichen Rechenleistung einsparen.
DR. MICHAELA REGNERI
Produktmanagerin für Business Intelligence Analytics bei OTTO GmbH
… begeistert sich für Künstliche Intelligenz, insbesondere für Cognitive Computing mit Sprache, Bildern und allen anderen Arten von Mensch-Maschine-Interaktionen. Nach ihrer Promotion in Computerlinguistik war sie zunächst beim SPIEGEL-Verlag verantwortlich für Suche und Data Mining. Bei OTTO war sie seit 2016 zunächst als Produktmanagerin für Business Intelligence Analytics tätig. Sie interessiert sich besonders für Themen rund um Corporate Digital Responsibility und Organisationsentwicklung: KI und die Zukunft der Arbeit, KI und Mitarbeiter*innenentwicklung oder auch das nachhaltige Design von KI-Systemen.