Skip to main content
#2InterviewKI in der Praxis

Gemeinschaft statt Größenwahn

Magazin #2 | Sommer 2023

Gemeinschaft statt Größenwahn: Mit Open Source zu nachhaltigen Lösungen

Sasha Luccioni forscht im Bereich Maschinelles Lernen (ML). Für sie ist die Klimakrise die größte globale Herausforderung, die vor uns liegt. Deshalb arbeitet sie bei Hugging Face daran, KI-Modelle nachhaltiger zu gestalten. Das Start-up hat sich zur Aufgabe gemacht, Open-Source-Ansätze in der ML-Community zu unterstützen und dadurch die Probleme anzugehen, die der Einsatz von KI mit sich bringt: Emissionen, versteckte Vorurteile und Diskriminierung. Wir ließen uns im Gespräch mit Sasha Luccioni erklären, wie sich der CO2-Fußabdruck von KI-Modellen messen lässt. Irene Solaiman, die Policy-Leiterin bei Hugging Face, nahm diesen Faden auf und machte darauf aufmerksam, dass Entscheidungsträger*innen solche Instrumente benötigen, um politischen Druck aufzubauen.

Interview mit Dr. Sasha Luccioni und Irene Solaiman

Sasha, Sie beschäftigen sich bei Hugging Face vor allem mit großen Sprachmodellen oder Transformer-Modellen. Sprachmodelle sind inzwischen für ihren immensen Energieverbrauch und die CO2-Emissionen berüchtigt, die sich daraus ergeben. Würden Sie sagen, dass Open-Source-Sprachmodelle ökologisch per se nachhaltiger sind?

Durch Open-Source-Ansätze können Modelle besser wiederverwendet werden. Statt Transformer-Modelle nur für eine Anwendung zu trainieren, können sie in vielen Anwendungen eingesetzt werden. Alle vortrainierten Modelle auf der Hugging Face-Plattform lassen sich speziell für bestimmte Einsatzfälle modifizieren. Das ist definitiv umweltfreundlicher, als jedes Mal Modelle von Grund auf neu zu entwickeln. Vor einigen Jahren war es noch üblich, so viele Daten wie möglich zusammenzutragen, um ein Modell zu trainieren. Die Modelle waren dann nicht frei zugänglich. Inzwischen werden datenreiche Modelle nach dem Training geteilt, damit andere sie so umgestalten können, wie es für ihre Anwendungsfälle nötig ist.

Gibt es auch soziale oder ökonomische Vorteile?

Da Transformer- oder KI-Modelle immer größer werden, wird es immer schwieriger, bei der KI-Entwicklung mithalten zu können. Das gilt vor allem für Organisationen aus Ländern, die keinen Zugang zu den teils extrem leistungsstarken Computern haben, auf denen solche Modelle entwickelt und trainiert werden. Hugging Face bietet in solchen Fällen einige Optionen. Wir ermöglichen beispielweise, dass ein großes Sprachmodell über eine API genutzt wird, so dass das nicht über den eigenen Computer geschehen muss. Dadurch werden die Modelle zugänglicher.

Wird Hugging Face beim Versuch, die Nachhaltigkeit von KI zu forcieren, politisch unterstützt?

In den vergangenen Jahren war Nachhaltigkeit in den Ansätzen zur Regulierung von KI nur von nachrangiger Bedeutung. Auch die Messung von CO2-Emissionen kommt darin kaum vor, was damit zusammenhängt, dass kaum Instrumente dafür zur Verfügung stehen. Wir stecken in einem Dilemma fest: Die politischen Entscheidungsträger*innen müssten dringend Druck aufbauen, aber dazu werden Daten zu den Emissionen benötigt. Eine Verpflichtung zum Einsatz verfügbarer Tools, mit denen Emissionswerte ermittelt werden könnten, ist aber bisher nicht in politischen Richtlinien vorhanden. Entscheidungsträger*innen können also nicht auf solche Daten verweisen.

Welche politischen Ansätze gibt es, um KI nachhaltiger zu machen?

Der AI Act der EU gehört zu den vielversprechendsten und prominentesten Versuchen, KI im Interesse der Allgemeinheit zu regulieren. Viele Verordnungen und Regulierungen kommen natürlich aus Ländern mit einem hohen Bruttoinlandsprodukt: etwa der Algorithmic Accountability Act in den USA oder der AI and Data Act in Kanada. Im Algorithmic Accountability Act wird Nachhaltigkeit zwar nicht explizit erwähnt, aber ich begrüße, welche Bedeutung darin Folgeabschätzungen beigemessen werden. Entscheidungsträger*innen sollten stärker über die Folgen aufgeklärt werden, die der Einsatz von KI-Systemen hat, zum Beispiel die CO2-Emissionen. Dadurch würden sie ein besseres Verständnis dafür bekommen, wie wichtig es ist, dafür geeignete Instrumente zu entwickeln.

Sie haben bei Hugging Face ein Tool entwickelt, um versteckte Vorurteile – sogenannte Bias – in Sprachmodellen aufzudecken. Wie funktioniert das und welche Art von Vorurteilen erkennt das Tool?

Diese Modelle werden mit Daten aus dem ganzen Internet gefüttert. Da die Trainingsdaten aus allen möglichen unterschiedlichen Quellen stammen, sollen sie, so die Annahme, insgesamt relativ neutral sein. Doch in den KI-Anwendungen werden dann Outputs generiert, die niemand erwartet hat. Um herauszufinden, welche Vorurteile in den Modellen stecken, müssen wir sie aus verschiedenen Konstellationen heraus Entscheidungen oder Voraussagen treffen lassen. Wir haben daran gearbeitet, für die Modelle Prompts zu generieren, um sie einen Text vervollständigen zu lassen, zum Beispiel „Ihr Traumberuf ist“ oder „Sein Traumberuf ist“. Wenn das Modell daraus „Ihr Traumberuf ist Kindermädchen“ und „Sein Traumberuf ist Informatiker“ macht, haben wir herausgefunden, dass in dem Modell ein geschlechtsspezifisches Vorurteil steckt. Solche negativen Stereotypen sind nur ein Beispiel für die systemimmanenten Vorurteile, die wir für jedes KI-Modell dokumentieren können.

In der Hugging Face-Datenbank kann gezielt nach emissionsarmen Modellen gesucht werden. Wird dieses Feature häufig genutzt?

Wir haben die Emissionen, die wir angeben, aus dem Training heraus ermittelt. Oft können wir nicht viel darüber sagen, welche Emissionen sich aus der Anwendung eines KI-Systems ergeben. Doch die meisten interessieren sich dafür, wie viel CO2 bei der Anwendung freigesetzt wird. Das wiederum hängt von vielen Faktoren ab: von der Hardware oder vom Standort der Computer, die die Rechenprozesse umsetzen. Ohne diese Faktoren zu kennen, können wir keine Angaben zu den Emissionswerten machen. Dazu müssten wir verschiedene Architekturen, Modelle, GPUs und so weiter miteinander vergleichen. Aber viele Menschen würden sich solche Orientierungswerte wünschen.

Warum ist es wichtig, die Emissionen von ML-Modellen zu messen, und wie lässt sich das umsetzen?

Je mehr Tools genutzt werden, um Emissionen zu messen, und je häufiger diese Ergebnisse geteilt werden, desto eher können wir KI-Modelle auf Grundlage von belegbaren Zahlen bewerten. Tools wie Code Carbon errechnen den CO2-Fußabdruck eines Modells in Echtzeit. Das Programm läuft parallel zum Code ab und schätzt zum Schluss, wie hoch die Emissionswerte sind. Außerdem haben wir eine Website eingerichtet, auf der man Daten wie die Trainingsdauer oder die für das Training genutzte Hardware-Typen eingeben kann. Daraufhin wird ein geschätzter CO2-Fußabdruck ermittelt. Unsere Schätzungen sind nicht so genau wie die von Code Carbon, aber es reicht, um sich ein Bild davon zu machen.

Wie lässt sich der Einsatz nachhaltiger KI-Systemen fördern?

Ich glaube, dass gerade in der Forschung Bottom-Up-Ansätze ganz gut funktionieren. Bei Konferenzen werden wir ständig nach weiteren Informationen gefragt. Allerdings ist die Reproduzierbarkeit ein Problem. Viele Forschungsergebnisse können nicht ohne Weiteres reproduziert werden, da sie von sehr speziellen Faktoren abhängen. Die KI-Community versucht dieses Problem in den Griff zu bekommen, indem sie bestimmte Richtlinien vorgibt. Wenn ein Paper eingereicht wird, müssen beispielsweise also die Parameter X, Y und Z angegeben werden. Der Code und die Daten müssen frei zugänglich sein. Was die Nachhaltigkeit angeht, müssten wir ähnlich vorgehen, um Vergleichsgrößen für verschiedene Modelle zu ermitteln. Wir stellen technische Verfahren zur Verfügung, die sich viele zunutze machen können.

In vielen Policy-Gesprächen geht es darum, die regulatorischen Hürden für kleine und mittlere Unternehmen zu minimieren, da ihre Ressourcen kleiner sind als die von Big-Tech-Unternehmen. Den kleineren Unternehmen fehlt die Infrastruktur, um CO2-Emissionen zu ermitteln, von daher können wir auch nicht von ihnen erwarten, dass sie Emissionswerte umfassend dokumentieren.

Was könnten politische Entscheidungsträger*innen tun, damit die Emissionswerte von KI-Modellen transparenter werden?

Wir beschäftigen uns sehr mit der Dokumentation. Dabei würden wir uns einen stärkeren Austausch mit politischen Institutionen wünschen, um zu erfahren, welche Informationen für politische Entscheidungsprozesse wichtig wären – über die Informationen hinaus, die auf Modelcards verzeichnet sind. Viele Regierungen verlangen von der Branche mehr Informationen über Modelle, ohne anzugeben, über welche Nachhaltigkeitsaspekte sie informiert werden wollen. Es wäre für uns auch wichtig zu wissen, in welcher Form wir solche Informationen zur Verfügung stellen sollen, damit Entscheidungsträger*innen ohne technischen Hintergrund sie gut verwerten können. Wenn Entwickler*innen dazu angeregt werden sollen, nachhaltigere Systeme zu gestalten, müssen wir ihnen dazu auch die nötigen Informationen liefern.

Trotzdem werden weiterhin vor allem nicht nachhaltige KI-Systeme entwickelt. Stecken wir auf unabsehbare Zeit in einer Infrastruktur fest, in der es nicht auf Nachhaltigkeit ankommt?

Wenn wir uns die Infrastruktur anschauen, sehen wir positive und negative Entwicklungen. Die Hardware-Entwicklung macht in puncto Recheneffizienz enorme Fortschritte. Der Unterschied zwischen einer GPU aus diesem Jahr und einer GPU, die vor drei Jahren State of the Art war, ist sehr groß. Wir reden hier über das Zehnfache an Rechenleistung. Die Kehrseite der Medaille ist aber, dass die Menschen dadurch animiert werden, noch mehr Rechenprozesse laufen zu lassen. Wenn wir die Größe der Modelle und den erforderlichen Rechenumfang auf einem konstanten Niveau halten könnten, wären wir definitiv auf einem guten Weg. Da aber beides durch die Decke schießt, lässt sich schwer beurteilen, wohin die Richtung geht. Immerhin nutzen Cloud-Anbieter immer häufiger CO2-Kompensationen oder setzen sogar auf erneuerbare Energie. Sie achten mittlerweile eindeutig auf den Klimaschutz. Auf der anderen Seite ist bei der Entwicklung von KI-Modellen die „Je größer, desto besser”-Mentalität völlig außer Kontrolle geraten.

Hintergrund

Wie sich Bilder verbreiten: Ist Schreiben eine Domäne weißer Männer?

Transformer Models sind zum Standard für große Sprachmodelle geworden. Auf ihnen basieren Suchmaschinen, Maschinenübersetzungsdienste, Systeme zur Moderation von Inhalten, Spracherkennungstools, Text-zu-Bild-Generatoren und viele andere Anwendungen. Die zugrunde liegenden Deep-Learning-Modelle werden mit üblicherweise enorm großen Datensätzen trainiert, um daraus Strukturen abzuleiten, die in den Datensätzen vorhanden sind. Auf diesen Strukturen beruhen dann automatisierte Modellprozesse, in denen Eingabedaten zu Ausgabedaten transformiert werden, etwa eine Texteingabe zu einem Bild. Seit einiger Zeit gibt es Modelle, die nach der Eingabe von Textprompts entweder Text oder Bilder generieren (zum Beispiel GPT3, ChatGPT, Stable Diffusion oder DALL·E). Ihre Leistungsfähigkeit ist zweifellos überwältigend, allerdings sind Risiken mit ihnen verbunden. Da sie normalerweise mit ungefilterten Daten aus dem Internet trainiert werden, generieren die Modelle diskriminierende, rassistische, frauenfeindliche oder ähnlich vorurteilsbeladene Inhalte. Forscher*innen bei Hugging Face haben ein Tool entwickelt, um solche sogenannten Bias in Text-zu-Bild-Generatoren ausfindig zu machen. Aus einer Liste von 150 Berufen und dazugehörigen 20 Adjektiven können mit diesem Tool Prompts unter anderem für DALL·E und Stable Diffusion generiert werden. Der Bias Explorer demonstriert sehr anschaulich, wie anfällig diese Modelle für Vorurteile sind. Nach der Eingabe des Wortes „author“ generiert DALL·E 2 insgesamt 179 Bilder weißer Männer und ein einziges Bild einer Frau, wenn das Modell den Beruf „Schriftsteller*in“ mit allen 20 Adjektiven kombiniert. Auf immerhin 13 der 180 mit Stable Diffusion (Version 1.4) generierten Bildern ist eine Person of Color zu sehen. Stable Diffusion neigt wiederum eindeutig dazu, Frauen bei der Geschlechterverteilung zu bevorzugen: Auf 140 von 180 Bildern werden Frauen gezeigt.

KI-Lebenszyklus und CO2-Emissionen: Der Ausstoß hört nicht auf

Es liegen kaum Informationen über den Energieverbrauch von KI-Systemen und die von ihnen verursachten Emissionen vor. Diese Sachlage erschwert es, zielgerichtete politische Lösungsansätze zu entwickeln, um die Emissionen zu reduzieren. Es ist bekannt, dass Rechenzentren oder auch die Produktion und der Betrieb jeglicher Hardware erheblich zum globalen CO2-Ausstoß beitragen. Sie bilden die für den Betrieb von KI-Systemen notwendige Infrastruktur. Die fehlenden Zahlen zu den Emissionen, die die Anwendung der KI-Systeme herbeiführt, kommen noch hinzu.

Sasha Luccioni, Sylvain Viguier und Anne-Laure Ligozat haben einen ersten Schritt unternommen, diese Informationslücke zu schließen. Dazu haben sie die Emissionen geschätzt, die das Sprachmodell BLOOM (175 Milliarden Parameter) über weite Teile seines Lebenszyklus verursacht. Das Ergebnis: Beim Training von BLOOM sind etwa 24,7 Tonnen CO2-Äquivalente an Emissionen entstanden, wenn nur der direkte Energieverbrauch berücksichtigt wird. Wenn allerdings anteilig auch Prozesse wie die Herstellung der Hardware oder der betriebsbedingte Energieverbrauch in die Schätzung einfließen, verdoppeln sich die Emissionswerte. Das Training allein reicht also als Referenzgröße bei der Erfassung der von KI-Systemen verursachten Emissionen nicht aus. Messungen und methodisch saubere Rechnungen müssen ihren gesamten Lebenszyklus umspannen, um Unternehmen, Entwickler*innen oder auch Forscher*innen zu sensibilisieren und gezielte politische Maßnahmen anzustoßen.

DR. SASHA LUCCIONI

Forscherin bei Hugging Face, Inc.

Sie beschäftigt sich mit den ethischen und gesellschaftlichen Folgen von Modellen und Datensätzen, die für Maschinelles Lernen verwendet werden. Außerdem ist sie Co-Vorsitzende der Big Science Workshop-Arbeitsgruppe zum CO2-Fußabdruck und Vorstandsmitglied beim Netzwerk Women in Machine Learning (WiML).

IRENE SOLAIMAN

Policy Director bei Hugging Face, Inc.

Als Expertin auf dem Gebiet KI und Sicherheit untersucht sie die gesellschaftlichen Folgen von KI und gestaltet die Policy-Ausrichtung. Außerdem berät sie Initiativen zum verantwortungsvollen Einsatz von KI bei der Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) und dem Informationstechnik-Berufsverband Institute of Electrical and Electronics Engineers (IEEE). Bevor sie zu Hugging Face kam, war Irene für die KI-Policy bei der Zillow Group zuständig. Bei OpenAI leitete sie KI-Forschungsprojekte. Irene hat einen Masterabschluss in Public Policy von der Harvard University.