Ende August 2022: Ich habe gerade endlich einen DALL-E2-Zugang bekommen, und der Open-Source-Bildgenerator Stable Diffusion macht die Runde. Also denke ich mir: Vielleicht kann mir die KI ein neues Twitter-Profilbild bauen. Und erfrage von der KI: „A journalist who is also a bad programmer, photorealistic“. Das Ergebnis habe ich als Titelbild dieses Posts gewählt – heute, die astronomisch lange Zeit von 9 Monaten später, kommt es uns eher unfertig vor.
Schon damals allerdings stören mich zwei Dinge: Erstens ist es nicht fotorealistisch, und zweitens habe ich nun mal keinen Bart. Und es wird sich als fast unmöglich erweisen, diesen Bart wegzuprompten.
Sieh’s negativ? Geht noch nicht.
Inzwischen könnte ich bei Midjourney oder Stable Diffusion einfach „Bart“ als Tabu-Wort, als „negatives Prompt“ angeben und damit für die Bildkomposition ausschließen, aber: Damals(tm), im August 2022, bieten die Modelle diese Möglichkeit noch nicht.
Ich versuche es also erst mal ganz naiv mit „…no beard“ – mit dem Ergebnis, dass die Journalist-and-Bad-Programmer-Bilder jetzt erst recht bärtige Männer darstellen: KI-Bildmodelle haben Schwächen mit Verneinungen im Speziellen und mit der Interpretation von linguistischen Strukturen allgemein. Also schwenke ich auf das Synonym „clean-shaved“ um..
War nichts. Vielleicht ist Stable Diffusion einfach das falsche Tool? Ich schwenke um zu Dall-E2: Mein erster Versuch liefert mir tatsächlich Männer ohne Bart – als Cartoon. Ein weiterer enthält wieder jede Menge Gesichtsbehaarung.
Als ich das etwas belustigt twittere, kommt aus meiner Twitter-Blase der Vorschlag: Versuch’s doch mal mit „good programmer“. Ich gebe das Prompt ein, warte – und muss mich ziemlich beherrschen, um nicht laut loszuprusten:
Spontane Reaktion: „Den rechts kenne ich“ – ein sehr lieber Mensch aus meinem Webmontags-Bekanntenfeld. Professioneller ITler.
Was die Bildmaschine über die Welt gelernt hat
Und warum auch nicht! Natürlich gibt’s bärtige ITler – und dass die Bartträgerquote im Datenjournalismus vergleichsweise hoch ist, würde ich auch nicht bestreiten, auch wenn sie erfreulicherweise in den letzten Jahren stark gesunken ist. Aber die Assoziation von „programmer“ – was ja auch eine Frau bezeichnen kann – und „beard“ ist eindeutig ein digitales Vorurteil. Es ist bei weitem nicht das einzige.
Den oder die „CEO of a multi-national company, stock photography“ liefert DALL-E2 bei meinem nächsten Versuch so klischeehaft, dass man es kaum noch karikieren könnte (und ich schwöre, die anderen drei Bilder waren nur moderat besser):
Wieder sind wir von der Technik inzwischen Besseres gewöhnt. Aber tatsächlich ist die Ansammlung von „Alter-weißer-Mann“-Klischees auch damals schon – Pech. Dass DALL-E ganz schön viele Klischees lieferte, aus einem „doctor“ einen Mann und aus einem „nurse“ eine Frau machte, war OpenAI schnell aufgefallen – und die KI-Firma hatte sich einen hübschen, einfachen Trick für mehr Vielfalt in den Bildern ausgedacht: An einen bestimmten Anteil der Prompts hängt ein Algorithmus einfach ein Wort wie „female“, „asian“, black“ an. Was ganz gut funktioniert, auch wenn mich die Ergebnisse manchmal überrascht haben:
Und Midjourney, heute?
Jetzt ist ja inzwischen Midjourney das Maß aller generativen Dinge – und dieses Blog braucht ein etwas passenderes Titelbild als KI-generierte bayerische Ninja-Katzen. Also „/imagine a journalist who is also a bad programmer, stylized in the style of Gary Larson“ – und siehe da:
Das ist sehr ansehnlich und erfreulich bartfrei. Allein: Ich bin misstrauisch. Auch die früheren Dall-E-Datenjournalisten waren dann bartfrei, wenn sie stilisiert daherkommen, also noch einen Versuch mit einem expliziten „clean-shaved“:
Mag sein, dass mich die KI einfach nur falsch verstanden hat und deshalb zuerst rasierte Schädel produziert. Aber da ist sie dann wieder, die nach KI-Sicht programmierertypische Gesichtsbehaarung.
Bei Midjourney, Stable Diffusion und Dall-E ist der Bart längst noch nicht ab.
Schreibe einen Kommentar