Am 30. November 2022 stellte OpenAI ChatGPT vor, und seitdem war die Welt nicht mehr dieselbe – zumindest meine. Der 15.2.2024, der vergangene Donnerstag, ist ein weiterer dieser Zeitpunkte, an dem eine neue KI-Technologie die Welt in Vorher und Nachher einteilt.
Die große KI-Neuigkeit haben sicher alle mitbekommen, ja? Google hat gerade mit seinem Gemini-Sprachmodell OpenAIs ChatGPT überholt. Just kidding. Auch eine große Sache, aber das hat Konkurrent OpenAI durch seine Neuvorstellung torpediert – die Zeitenwende meint OpenAIs „Sora“, den KI-Videogenerator, mit dem sich aus einfachen Szenenbeschreibungen Videosequenzen erstellen lassen. (OpenAI-Blog)
Falls es irgendjemand noch nicht gesehen hat: hier mal ein paar Sekunden Demo-Video von OpenAI. Alles ist rein KI-generiert, und zur Hölle, wenn ich das bei diesen Clips an irgendwas bemerkt hätte.
Auch ich habe noch keinen Zugriff auf Sora – wie eigentlich niemand außerhalb von OpenAI und Microsoft. Also: keine Erfahrungen aus erster Hand – noch nicht. Keine Sorge, die kommen irgendwann, und ich denke, dass wir auch in ein paar Monaten erste Open-Source-Versionen der OpenAI-Technologie sehen könnten. Das Zeitalter der KI-Videos ist da; ein paar kurze Beobachtungen dazu – die sich vor allem stützen auf die sehr klugen Newsletter von Gary Marcus, Gregor Schmalzried und Alberto Romero:
Trust no one – KI-Video wird allgegenwärtig (mit drastischen Folgen)
Grafiker und Kameraleute reagieren mit Galgenhumor. Aus dem Prädikat „Ohne Computergrafik gefilmt“ würde dann wohl bald „Mit echten Menschen gefilmt“, oder noch einfacher: „Gefilmt“. Nicht KI-generierte Filmsequenzen werden irgendwann eher die Ausnahme sein als die Regel – warum sollte man für ein Werbefilmchen ein teures Team von Spezialisten buchen, wenn man es auch viel schneller aus dem Computer kriegen kann?
Die Desinformations-Macher reiben sich schon die Hände. Ein Tool, mit dem man im Handumdrehen Videos von Flüchtlingsmassen generieren kann. Und wenn es dann Versionen der Technologie ohne lästige OpenAI-Sicherheitschecks gibt, kann man Schock-Videos vermeintlicher ukrainischer Greueltaten fälschen – die Zielgruppe glaubt ja ohnehin, dass eine „Lügenpresse“ so etwas „unterdrücken“ würde. Und, genauso wertvoll: Unangenehme Videobeweise kann man damit wegargumentieren, es seien Sora-Fälschungen. Dazu braucht man die Technologie nicht mal zu haben.
KI-Bilder erkennen? Keine Chance. Ein neuronales Netz hinterlässt zwar bestimmte mathematische Spuren, die Bildforensiker finden können – mit speziellen Tools – aber wenn ein Video erst mal durch die Instagram-Kompression durch ist, sind die weg. Vom Bildschirm abfilmen – ein Lieblings-Trick von Fälschern, um Echtheit vorzugaukeln – entfernt dann auch die letzten Reste digitaler Wasserzeichen. Und ich sage voraus: Die Versuche von OpenAI, einen KI-Video-Detektor zu bauen, werden so ausgehen wie das OpenAI-Projekt eines KI-Text-Detektors, von dem am Ende nur dieser schnöde Hinweis übrig blieb: „Do AI detectors work? In short, no, not in our experience.“
Ein Bildforensiker hat mir genau deshalb gesagt, die beste Chance ist, nach Unstimmigkeiten zu suchen: Stimmt das Licht nicht? Die Anzahl der Finger? Aber nicht immer werden wir das Glück haben, dass die KI sich durch Glitches verrät – im Bild oben durch Schachbretter mit 7×7 Feldern und 3 Königen.
Vielleicht hilft uns, deren Job authentische Abbilder der Wirklichkeit sind, der umgekehrte Weg? Eine klare, digital signierte Kennzeichnung von Bildern aus der wirklichen Welt – so etwas, wie es die C2PA-Allianz standardisieren will? Und alle nicht signierten Bilder stehen unter Generalverdacht.
Ansonsten bleiben nur die Klassiker der Bild-Verifikation: Kann ich den Ort identifizieren, an dem das Material angeblich aufgenommen wurde? Die Quelle einschätzen? Eine vertrauenswürdige zweite Quelle ausmachen? Das alles kostet richtig, richtig viel Zeit und Mühe. Trotzdem glaube ich: Wir Medien-Profis werden schon zu verhindern wissen, massenhaft auf KI-Videos reinzufallen. Bei einer digitalen Öffentlichkeit, die in der Regel nicht mal die Artikel liest, die sie teilt, bin ich skeptischer.
Einen Schritt vor der Matrix – „Sora“ versteht die Welt besser, als wir KI bislang zugestehen wollen
Und dann ist da noch der andere Aspekt. Damit Sora so realistische Bilder erzeugen kann, musste es eine ganze Menge darüber lernen, wie sich die Dinge in unserer Welt verhalten: wie ein Ball fällt, von einer Fläche abprallt, davonrollt. Wie der Staub von den Reifen eines Jeeps aufgewirbelt wird.
Damit Sora das lernen konnte, wurde es wohl mit Bildern aus einer Computerspiel-Engine gefüttert – so die häufige Spekulation. Also mit künstlichen Bildern, die aber auf einem exakten Modell der Wirklichkeit beruhen. Wie das Lernen von Wörtern die Sprachmodelle irgendwann dazu ermächtigt hat, logische Schlüsse zu ziehen, hat Sora aus diesen Trainingsdaten etwas über die Welt gelernt – ein Weltmodell als Emergenz.
Jetzt darf und sollte man mit der Emergenz skeptisch sein. Immer wieder kommen Spielverderber-Forschergruppen und weisen darauf hin, wie stark die vermeintliche Emergenz oft davon abhängt, dass genau die zu lösende Aufgabe schon mal im Trainingsmaterial vorkam („task contamination“). Aber ist das bei uns Menschen so viel anders? Genau wissen wir es nicht – und in der Ferne hören wir Turing kichern.
Titelbild: Midjourney, angelehnt an Flammarions Holzstich: „/imagine https://s.mj.run/9j6xfI7HFhY a man looking from the edge of the flat world into the celestial sphere, seeing wild rainbow-colored pixel art and ai-generated fractal madness –v 6.0 –sref https://s.mj.run/9j6xfI7HFhY –s 250“, ergänzt mit Firefly/Generative Fill „AI Madness“ in Photoshop 24
18.2.,22.30h: Nach Veröffentlichung um einen Satz zur möglichen Verwendung von KI als Ausrede ergänzt.
Auch lesenswert:
- Weshalb du als Mensch mit Gewissen und Verantwortungsgefühl keine KI verwenden solltest (zumindest nicht unkritisch)
- OpenAI und die Urheberrechte: Ist KI trainieren wie Radkappen klauen?
- #mit16: Ein Tag in der Medienzukunft
Schreibe einen Kommentar