Goodbye Sora, wir werden dich nicht vermissen. Wieviel Energie und Rechenleistung KI-Videos verschlingen

Crosspost aus meinem Snackable-AI-Newsletter bei LinkedIn: aus aktuellem Anlass ein kleiner Überblick, wie verschwenderisch KI-Videos sind. Und ja, ich weiß, ich trage dazu bei, siehe unten.

Das passiert vermutlich Disney-Führungskräften auch nicht allzu oft: dass sie aus einem Meeting gehen, sich noch zum Erfolg und zur abgeschlossenen Partnerschaft gratulieren, und eine halbe Stunde später stellen sie dann fest, dass sie soeben rausgeschmissen worden sind. ChatGPT-Anbieter OpenAI hat Knall auf Fall beschlossen, seinen Video-Generator Sora einfach abzuschalten, und die angestrebte Content-Partnerschaft mit Disney gleich mit. (🌐 reuters.com-Meldung)

Die Entscheidung kam überraschend, aber nicht völlig unerwartet. Sora ist selbst OpenAI einfach zu teuer geworden. Der Video-Generator verbraucht eine knappe und immer teurere Ressource: Rechenleistung. (🌐 Business Insider) Und er brachte offenbar auch nicht so viel zusätzliche Aufmerksamkeit und Nutzer ein, dass OpenAI daran festhalten wollte. Hey: OpenAI! Die Firma, die letztes Jahr 8 Milliarden Dollar verbrannt hat! (🌐 AIinvest via en.wikipedia.de) Wenn selbst OpenAI knauserig wird, dann muss das Problem wirklich ernst sein. Und das ist es.

Wie aufwändig es ist, mit KI Bilder herzustellen

Dass KI wirklich viel Energie verbraucht, ist nichts ganz Neues: Der KI-Boom ist wesentlich dafür verantwortlich, dass der Energieverbrauch in den USA und anderswo explodiert. Bis 2024 werden möglicherweise 12 Prozent des Stroms dort von KI verschlungen werden. (🌐 cnet.com) Da ist zum einen das Training der Modelle – das Training der ChatGPT-Anfangstage-KI GPT-4 soll etwa 63 Terawattstunden verschlungen haben, der Jahresverbrauch einer deutschen Kleinstadt – aber natürlich kostet auch jede Anfrage bei einem Chatbot, jedes mit KI generierte Bild Energie.

Welche Open-Weights-Sprachmodelle sind energieeffizient? 🌐 Dashboard von Sasha Luccioni bei Huggingface

Wie viel, das erforscht seit einigen Jahren Dr. Sasha Luccioni, bei der KI-Modellbastler-Plattform Huggingface genau dafür angestellt. Sie kann nur Modelle testen, die offen verfügbar sind, und nicht, was auf den Servern von OpenAI, Google und Alibaba läuft. Aber schon das ist ziemlich aufschlussreich – hier zusammengefasst von der 🌐 MIT Technology Review: Okay, eine Anfrage bei ChatGPT verbraucht mehr Energie als eine reine Suche, aber das verblasst im Vergleich, wenn man sich von einem Open-Weights-Videogenerator wie Flux ein Bild aus dem Text erzeugen lässt.

Schon die Generierung eines einzelnen KI-Bildes benötigt etwa so viel Energie, dass man damit einmal sein Handy aufladen könnte.

Und das sind nur vergleichsweise bescheidene Open-Weights-Modelle: Der Bildgenerator von ChatGPT integriert auch ein Sprachmodell und braucht ein Mehrfaches an Zeit, also vermutlich auch an Rechenleistung und Energie.

Videos packen auf diese enorme Verschwendung noch mal einen drauf:

Mit der Energie, die ein einzelnes 10-Sekunden-Video verbraucht, könnte man etwa eine Stunde lang fernsehen. (🌐 cnet.com über die letzten Forschungen von Sasha Luccioni)

Je länger die generierte Videosequenz, desto schlimmer wird das Problem: Die benötigte Rechenleistung — und damit der Energieverbrauch — steigt leicht exponentiell an. Je länger die Sequenz wird, desto mehr Energie ist pro Sekunde Video erforderlich. (🌐 Weitere huggingface-Studie auf arxiv).

Kurze Offenlegung: auch ich trage (mäßig) zu diesem Problem bei. Eine der unwiderstehlichen Ideen, die in den letzten Wochen durch meinen Kopf spuckte, war ein Programm, das einen Podcast voll automatisiert in ein animiertes KI-Video umsetzt – aus Einzelbildern, die mein Mac vorher lokal erdacht und generiert hat. Könnt ihr euch hier anschauen (und auch auf dem Gitlab!), ist aber ein teurer Spaß: Die Sekunde KI-Video kostet 10 Cent, schon deshalb setze ich den Auto-Video-Creator eher zurückhaltend ein.

Sora muss gehen, KI-Video bleibt

Sora bekommt also den Stecker gezogen. OpenAI hat eben immer noch kein funktionierendes Geschäftsmodell, sondern blutet Monat um Monat Milliarden. Und der Moment, an dem die Rechnung für all die verschenkten Rechenstunden präsentiert wird, rückt näher: Die Firma muss sich auf die wirklich wichtigen Dinge beschränken – und schaltet einen Videogenerator ab, der einerseits seit Monaten (🌐 404 Media) eine Flut von Fake-Videos über die ICE-Abschiebemiliz und andere Themen herstellte, zum anderen nach allgemeiner Ansicht als Produkt nie wirklich so gut funktioniert hat wie die Demos.

Ist ja nicht so, dass KI-Videos damit generell erledigt sind. Ich erinnere mich, zur Veröffentlichung von Sora das Positionspapier eines Investmentberaters gelesen zu haben – kopfschüttelnd: Der Analyst ging von 20 Prozent KI-Videos auf Social Media binnen zwei Jahren aus, und rechnete das auf die aberwitzigen Prozessorkapazitäten hoch, die man dafür braucht. Ein kurzer Blick auf TikTok zeigt: es hat keine zwei Jahre gedauert.

KI-Videos bleiben allgegenwärtig – dafür sorgt schon die Konkurrenz

Auch ohne Sora hat man als aufstrebender KI-Video-Creator weiter jede Menge Auswahl – eine unvollständige Auflistung:

Google Veo. Platzhirsch Google muss sich nicht um fehlende Geschäftsmodelle sorgen und entwickelt auch hier allmählich Dominanz.
Kling und Runway – kommerzielle Angebote, die sich an Video-Creator richten. Runway hat sogar einen richtig guten Workflow.
Seedance. Der Videogenerator der chinesischen Tiktok-Anbieterfirma Bytedance machte durch einen generierten Tom-Cruise-vermöbelt-Brat-Pitt-Clip Furore (🌐 xcancel), ist aber bislang nur für Besitzer einer chinesischen Handynummer nutzbar.
Und es muss nicht immer der Cloudserver vom Ami oder Chinamann sein – auch die heimische Grafikkarte kann schon was, Open Source sei dank: 🌐 Lightrix LTX 2.3 verspricht konkurrenzfähige Ergebnisse für Leute mit etwas mehr Geduld und einer Grafikkarte mit 16GB RAM. Damit man auch zuhause GPUs zum Schmelzen bringen kann.

Flux Image: A Macbook's GPU melting, with lava-like red-hot computer goo, with the creative trying to generate an AI video looking on in horror. The Creative wears a stylish tracksuit and fashionable glasses, mid-30s, but gives of an air of naivity. Canon EOS, natural lighting

Hörtipp: Die Folge des ARD-KI-Podcasts über die Bild- und Videogeneratoren. (🌐 ARD Sounds) Gregor Schmalzried und Fritz Espenlaub gehen der Frage nach: Wo soll das alles enden? Und warum sind die meisten KI-Videos und -Bilder immer noch so meh?

Auch lesenswert:

Kurzlink zu diesem Artikel: https://janeggers.tech/0mpe

Goodbye Sora, wir werden dich nicht vermissen. Wieviel Energie und Rechenleistung KI-Videos verschlingen

Wie aufwändig es ist, mit KI Bilder herzustellen

Sora muss gehen, KI-Video bleibt

KI-Videos bleiben allgegenwärtig – dafür sorgt schon die Konkurrenz

Auch lesenswert:

Kommentare

Schreibe einen Kommentar Antwort abbrechen