Magazin #2 | Sommer 2023
Inferenz: Die Rechnung ohne die Anwendung gemacht
Wenn über die Umweltfolgen von KI-Systemen gesprochen wird, ist vor allem der Ressourcenverbrauch in der Entwicklungs- und Trainingsphase von Machine-Learning-Modellen das Thema. Auf diese Phasen beziehen sich auch meistens die dabei angeführten Zahlen. Ein großes Fragezeichen steht aber hinter der Anwendungsphase von KI-Systemen. In der Fachsprache heißt diese Phase „Inferenz“. Die Entwicklung und das Training von KI-Modellen sind sehr komplexe Prozesse und verbrauchen relativ viel Energie. Gleichzeitig ist die Zahl der Prozesse in diesen Phasen aber begrenzt und sie sind zu einem absehbaren Zeitpunkt weitestgehend abgeschlossen. Jede Anwendung oder Inferenz eines KI-Systems verbraucht hingegen in der Regel relativ wenig Energie. Die Inferenz läuft aber mitunter extrem häufig ab. Ende 2022 gaben Forscher*innen von Facebook AI in einem wissenschaftlichen Paper an, dass in den Facebook-Rechenzentren täglich Billionen von Inferenzen stattfinden. In den letzten drei Jahren habe sich diese Zahl verdoppelt. Der deutliche Anstieg der Inferenzen habe auch dazu geführt, dass die darauf spezialisierte Infrastruktur ausgeweitet wurde: Zwischen Anfang 2018 und Mitte 2019 habe sich die Anzahl der Server, die in Facebooks Rechenzentren speziell auf Inferenzen ausgelegt sind, um das 2,5-fache gesteigert. Bei einem Unternehmen wie Facebook kommt diese Masse an Inferenzen beispielsweise durch Empfehlungs- und Ranking-Algorithmen zustande. Diese Algorithmen kommen jedes Mal zum Einsatz, wenn die fast drei Milliarden Facebook-Nutzer*innen weltweit die Plattform aufrufen und sich Inhalte in ihrem Newsfeed anzeigen lassen. Weitere typische Anwendungen, die auf Online-Plattformen zu hohen Inferenzzahlen beitragen, sind die Klassifizierung von Bildern, die Objekterkennung in Bildern und auf großen Sprachmodellen basierende Übersetzungs- und Spracherkennungsdienste.
Selbst wenn der Energieverbrauch jeder einzelnen Inferenz minimal wäre, würde der Energieverbrauch durch die schiere Menge an Anwendungen und die dafür notwendige Infrastruktur vermutlich trotzdem immens sein. Der CEO von Nvidia, einer der wichtigsten Prozessorhersteller, und Verantwortliche bei Amazon Web Services (AWS), einer der größten Cloud-Computing-Anbieter, gaben bereits im Jahr 2019 bekannt, dass ca. 90 Prozent der Kosten für den gesamten Machine-Learning-Prozess auf Inferenzen zurückzuführen seien. Da die Höhe der Kosten eng mit der erforderlichen Rechenleistung verbunden ist, folgern Wissenschaftler*innen, dass die in der Inferenzphase anfallenden Emissionen vermutlich deutlich höher liegen als die aus der Entwicklungs- und Trainingsphase von KI-Modellen. Diese Vermutung wird durch interne Zahlen von Facebook gestützt, die bestätigen, dass in den hauseigenen Systemen die Inferenzphase einen signifikanten Ressourcenverbrauch hat, der je nach Anwendung deutlich höher als in der Entwicklung und im Training ausfallen kann.
Es ist also fahrlässig, bei der Berechnung des Energieverbrauchs von KI-Systemen die Inferenzphase außer Acht zu lassen: Wenn wir den Ressourcenverbrauch von Autos ermitteln wollen, blenden wir ja auch nicht den gesamten Benzinverbrauch aus, der durch die Fahrten entsteht.