Magazin #3 | Herbst 2023
Kulturelle Hegemonie
Generative KI-Systeme als Büttel der Macht
KI-Systeme sind in ihrer Entwicklung und bei ihrem Einsatz immer in einen konkreten sozialen Kontext eingebettet. Das gilt auch für große text- oder bildgenerierende Modelle, deren Output suggeriert, dass wir es mit Fakten oder realistischen Abbildungen zu tun haben. Letztlich sind es jedoch nur realistisch erscheinende Inhalte, die bestimmte kulturelle Codes verbreiten.
Große KI-Bildgeneratoren wie Stable Diffusion, DALL·E 2 oder Midjourney werden mit enorm großen Datensätzen trainiert. Sie analysieren häufig darin auftretende Muster, zum Beispiel welche typischen Proportionen ein Gesicht hat oder wie Bilder von Landschaften üblicherweise aussehen. Wenn sie dann selbst Bilder von Gesichtern oder Landschaften erzeugen, können sie Vorurteile reproduzieren, die in den Datensätzen vorhanden sind (zum Beispiel Verzerrungen menschlicher Gesichtszüge aus rassistischen Karikaturen), oder falsche Darstellungen daraus übernehmen (zum Beispiel typisch westliche Architektur einer Stadt zuordnen, die in einer anderen Weltregion liegt und eine ganz andere Skyline hat).
Verzerrte Trainingsdaten sind allerdings nicht das einzige Problem. Viele Bildmodelle können deutlich schlechter realistische Bilder Schwarzer Frauen generieren als Bilder von Weißen Frauen. Sie enthalten häufiger Verfremdungen und Fehler, wie die Künstlerinnen Stephanie Dinkins und Minne Atairu herausgefunden haben. Manche Anbieter von Bildgeneratoren reagieren auf solche potenziell schädlichen (da latent rassistischen) Outputs, indem sie bestimmte Stichwörter für Prompts (die Aufforderungen an das KI-System, einen bestimmten Output zu generieren) blockieren. Die Künstlerin Auriea Harvey hat zum Beispiel entdeckt, dass einige bildgenerierende Systeme Eingabewörter wie „Sklave“ oder „Sklavenschiff“ sperren. Dadurch wird das Problem allerdings eher verdeckt als gelöst. Die Generatoren blenden so einen Teil der Geschichte aus, was wiederum eine kulturelle Dominanz verstärken kann, da sie die Perspektiven und Erfahrungen von Minderheiten unterdrücken.
Solch eine kulturelle Dominanz muss sich nicht unbedingt durch Diskriminierung äußern. Westliche Normen werden den Rezipient*innen oft subtil aufgedrängt, was sich zum Beispiel in der Art und Weise zeigt, wie Menschen auf KI-generierten Bildern lächeln. Auch eine urmenschliche Ausdrucksform wie ein Lächeln löst bei Menschen, die aus unterschiedlichen Kulturen stammen, unterschiedliche Wahrnehmungen und Reaktionen aus.
Das gleiche Risiko, eine hegemoniale Monokultur zu propagieren, besteht natürlich auch bei Textgeneratoren wie ChatGPT. Verschiedene Sprachen beschreiben menschliche Erfahrungen auf ihre eigene Art. Doch die Vielfalt kleiner Sprachen droht in der algorithmischen Hegemonie unterzugehen, da das Training generativer Sprachmodelle extrem große Datenmengen aus Büchern, Magazinen, Zeitungen und Online-Inhalten erfordert, die kleine Sprachen nicht liefern können – weil ihnen vielleicht ein ausreichend großer Textfundus fehlt oder sie sogar ausschließlich gesprochen werden. Es ist kein Geheimnis, dass Englisch die vorherrschende Sprache auf dem Gebiet der Technologie ist und dass viele weniger verbreitete Sprachen bei KI-Anwendungen auf der Strecke bleiben. Das Team hinter Stable Diffusion weist in seiner Model Card selbst darauf hin, dass die Trainingsdaten größtenteils englischsprachig sind und somit Eingaben in anderen Sprachen nicht gut funktionieren.