"A journalist who is also a bad programmer, stylized in the style of Gary Larson"
Zwei Bilder von Hunden, die aus einem Autofenster in eine Schneelandschaft schauen - beide haben eine unrealistische, gemalte und übertriebene Qualität

Das DALL-E3-Hundekitsch-Problem – und ein Tool, es zu beheben

„Dall-E und Kitsch, nenne mir ein ikonischeres Duo.“ (KI-Künstler Philipp Lenssen)

Wenige Menschen sind so qualifiziert das zu sagen wie Philipp. Er erzeugt mit generativer Bild-KI das Material für seine satirischen Bilder – nachzuschauen unter anderen auf aiandart.club und seinem Instagram-Channel – früher vor allem mit Midjourney, heute mit Dall-E3. Etliche hundert Bilder hat er inzwischen damit angelegt.

Der Open-AI-Bildgenerator ist schließlich ein gewaltiger Sprung nach vorn. Anders als Midjourney hat er kaum Probleme, die Beziehungen zwischen Motiven richtig darzustellen – DALL-E3 erzeugt wirklich einen Roboter, der ein Einhorn malt, nicht ein malendes Roboter-Einhorn – und räumt damit ein weiteres Pubquiz-Spiel ab. Die GPT-4-KI hilft, Bilder richtig zu prompten, und auch das ist ein Riesen-Plus – damit kann man dann auch die Pubquiz-Biber-Challenge gewinnen – und ab und zu erzeugt er sogar völlig korrekte Schrifttafeln in Bildern.

Aber er hat leider eine fatale Neigung zur Kitschpostkarten-Ästhetik.

Das Hundekitsch-Problem tritt auf

Es fing harmlos an. Ich wollte meine Folien zu den Bildgeneratoren auf aktuellen Stand bringen. Die enthielten noch ein Bild, das mit der Vorgängerversion „Experimental Dall-E2“ erstellt worden war – ein Hund im Autofenster in einer Schneelandschaft, der aus diesem Post bei Gold Penguin stammte.

Screenshot mit zwei KI-generierte Bildern, "Prompt: a dog smiling outside the window of a car on a sunny, winter day with snow on the ground"
Quelle: goldpenguin.org

Also bat ich ChatGPT, mir ein entsprechendes Bild mit Dall-E3 zu erzeugen – und bekam das:

KI-Bilder "Hund in Autofenster vor Schneelandschaft", künstliche Anmutung

Fotorealistisch geht anders – und ich hab’s wirklich versucht. Habe zum Beispiel schön nach ROMANE-Schema einen ChatGPT-„Fotokünstler“ angewiesen, alle Dinge aufzuzählen, die ein Bild fotorealistisch oder künstlich wirken zu lassen, und diese bei der Bilderstellung zu berücksichtigen – half nichts.

Tröstlich ist, dass es nicht nur mir so geht. Die Bitte an meine Netzcommunity, es doch auch mal zu versuchen – neudeutsch: die Challenge – führte unter anderem zu einem sehr unterhaltsamen Linkedin-Thread, und auch bei Mastodon und Bluesky kamen Rückmeldungen. Die ich hier mal unter fröhlicher Ignoranz aller Urheberschaft in eine Bildergalerie packe. (Aber ihr wisst ja, KI kann kein Urheber sein, deshalb sind KI-generierte Bilder gemeinfrei… just saying.) Und, Nebenbeobachtung, nur Männer haben Hunde generiert.

[ngg src=“galleries“ ids=“1″ display=“imagebrowser“ maximum_entity_count=“500″]Das kleine Experiment bestätigt: Dall-E3 in ChatGPT hat eine nicht zu unterdrückende Neigung zu Hundekitsch.

Wie man den Kitsch abschaltet – über die API

Tatsächlich: dass DALL-E3 eher kitschige und künstliche Bilder generiert, liegt an einer Voreinstellung – an die man über die API, also die Maschinen-Schnittstelle zur Bild-KI herankommt. Wenn man DALL-E von einem Programm aus ein Bild erzeugen lässt, kann man einen Parameter mitgeben: „Vivid“ – die Voreinstellung – oder „Natural“.

Ehrlich, liebes OpenAI: ich hab’s lieber natürlich als „lebhaft“.

Über die ChatGPT-Plus-Oberfläche kann man diesen Parameter nicht erreichen, nur über ein Programm, das die API ansteuert. Zum Glück muss man nicht selbst programmieren, wenn man einen schlauen Programmierer kennt, der seine Arbeit teilt: Philipp hat eine kleine Anwendung namens „Power DALL-E“ gebaut – zu finden bei Github. Über das Browser-Fenster stellt man ein, was DALL-E erzeugen soll – wählt „Natural“ statt „Vivid“ aus, und hat sogar noch die Möglichkeit, DALL-E vom Umformulieren des Prompts abzubringen. (Auch wenn das Häkchen nur bewirkt, dass das Prompt mit dem Satz beginnt: „Please use this exact prompt, do not change it“.)

Eingabemaske "Power-DALLE". Häkchen bei "~Exact prompt", Auswahl: "Natural Style". Bild eines Hundes, der vor blauem Himmel aus einem Autofenster schaut - fotorealistisch

Viel besser!

Power DALL-E auf dem eigenen Rechner laufen lassen

„Power DALL-E“ baut auf dem Javascript-Framework Node.js auf; wer die Admin-Rechte hat, um node.js auf dem eigenen Rechner zu installieren, kann das Programm ausführen. Es eröffnet einen kleinen lokalen Server, der mit einem API-Token von OpenAI ein Bild bestellt und abruft. Mit diesen Schritten habe ich es auf meinem Mac zum Laufen gebracht, auf dem node.js bereits installiert ist:

  • git clone https://github.com/JPhilipp/powerdalle
  • cd powerdalle
  • nano .env

Kleine Anmerkung zu nano: das ist ein Texteditor für die Linux- oder Mac-Kommandozeile, wer sich damit nicht herumschlagen möchte oder kann, kann mit jedem beliebigen Texteditor wie notepad.exe eine Datei .env anlegen und bearbeiten. Wichtig ist, dass sie eine Zeile enthält:

OPENAI_API_KEY=<openai-api-schlüssel>

…wobei ich dort einen meiner persönlichen API-Schlüssel eingetragen habe, die ich hier für mein OpenAI-Abrechnungskonto erzeugen kann. (Ein normales OpenAI-Login, das ich aber mit meiner Kreditkarte „aufgeladen“ habe.)

Bei mir war dann noch die Nachinstallation eines node.js-Pakets namens express nötig:

  • npm install express
  • node server.js

…und jetzt kann man in einem Browser über die Adresse localhost:3000 auf die Power-DALL-E-Oberfläche kommen und losprompten. (Als Bonus hat Philipp noch ein kleines Tool eingebaut, über das man sich ein Bildprompt zusammenklicken kann.)

Und der Kitsch ist raus!

Kurzlink zu diesem Artikel: https://www.janeggers.tech/j7v3

Neue Posts einfach per Mail zugeschickt bekommen? Dann hier eintragen; die Mails kannst du natürlich jederzeit wieder abbestellen.

Loading

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert