"A journalist who is also a bad programmer, stylized in the style of Gary Larson"
4 Comic-Bilder von Dachsen im Streifenanzug auf einem Skateboard.

Stilübung (3): Bewahr dir meinen Stil! Wie man ein KI-Bild mit einer Handschrift versieht

Teil 3 von 3 zu KI-Bildgestaltung: Dass KI jetzt auch Bilder retuschieren kann, ist toll. (Außer für die Grafiker.) Häufiger wird man aber an der Bebilderung eines Textes arbeiten und darüber nachdenken, wie eine Bildidee in einen Stil zu bringen ist.

Der Raum übertraf die meisten Konferenzräume, denn einmal war von allem genug da: Kaffee, Brezeln, Motivation. Zwei Dutzend Kolleginnen und Kolleginnen sahen mich erwartungsvoll an. Ich durfte mit ihnen erkunden, was der beste Weg ist, eine wiedererkennbare Handschrift zu erzeugen; einen Stil, der ins Auge springt, sich aber auch an verschiedenste Bildmotive anpasst.

Wo wir uns getroffen haben und bei wem, werde ich nicht verraten, aber wann: es war Anfang 2025, also noch vor der Veröffentlichung der Bildgeneratoren, die zuletzt im zweiten Teil das Thema waren. Trotzdem behaupte ich: Was wir damals herausgefunden haben, hat weiter Bestand; schließlich ist ein wiedererkennbarer Stil eine der wenigen Schwächen der Hybrid-Modelle wie Google Nano Banana, ChatGPT 4o-image und Qwen-Image-Edit.

Die Möglichkeiten:

  1. Prompt-Schablonen: Ausgefeilte Stilbeschreibungen
  2. Prompting mit Referenzbildern
  3. Feintuning: Ein mit Beispielbildern nachtrainiertes KI-Bildmodell
  4. Moodboards, die Midjourney-Variante des Feintunings.

1. Prompt bedient: Magische Worte für den richtigen Stil?

Kann man einen durchgängigen Stil in die richtigen magischen Worte fassen? Zumindest kann man einem Bildgenerator genauer sagen, was man sehen will. Allgemeine Tipps für bessere Bild-Ergebnisse:

  • Beschreibe genau, was du willst. Midjourney rät, an Thema, Medium (Hochglanzfotografie? Malerei? Sofortbild?), Umgebung, Licht, Farbe Stimmung und Bildkomposition zu denken.
  • Beschäftige dich mit Schlüsselwörtern für Stile. Das können neben den Namen von Künstlern (“Edward Hopper”) und einfachen Begriffen wie “photorealistic”, “digital art”, “crayon”, “stock photography”, “cinematic” auch etwas obskurere technische Begriffe sein: “anaglyphic”, “Fujicolor Superia X-TRA 400”, “8k”. Ein paar Vorschläge für Schlüsselbegriffe auf midjourney.com, ansonsten der Verweis auf das Midjourney-Prompting-Tool.
  • Beschreibe auch, was du nicht willst. “Negative Prompts” sind möglich, sowohl bei ChatGPT und Co. wie auch bei bei den konventionelleren Bildgeneratoren wie Midjourney, die dafür Schlüsselwörter wie –no nutzen.

An dieser Stelle mal ein Lob für einen Bildgenerator, der sonst nicht viel Liebe abkriegt: Firefly von Adobe. Die Begeisterung der Grafikprofis für diese KI, die sie mit dem Photoshop aufgedrängt bekommen, ist merklich abgekühlt, seit ihre Nutzung Credits kostet. Aber Firefly macht vieles richtig; man merkt, dass Adobe sich viele Gedanken darüber gemacht hat, wie man gutes Prompten erleichtern kann.

Auf der Firefly-Webseite finden sich dann auch jede Menge Auswahl-Möglichkeiten, um das generierte Bild in eine bestimmte Richtung zu drehen: für Farbgebung, künstlerische Ausrichtung, Anmutungen, vieles mehr. Wenn man sie anklickt, werden auch nur Schlüsselwörter in den Prompt geschrieben, aber das ist gut gemacht und effektiv. Bis zu einem gewissen Grad.

Ich sag’s offen: Die Profis bei unserem Workshop waren sich sehr schnell einig, dass Prompt-Schablonen nicht die Lösung sind. 

2. Gute Referenzen? Stil-Musterbilder

Wie erwähnt bin ich der Ansicht, dass die Hybrid-Modelle, allen voran Google Nano Banana, bei der Übernahme von Stilen überraschend schwach sind. Allerdings, wenn man die Idee einer Prompt-Schablone mit der Idee eines Referenzbilds kombiniert und die Stärken von Sprachmodellen ausnutzt, dann… voilá: der JSON-Trick. Er soll am Ende Thema sein. 

Einige Bildgeneratoren bieten die Möglichkeit, ein Bild als Vorbild anzugeben und dessen Stil auf ein neues Bild übertragen zu lassen. Neben Midjourney – der Überblick über die verschiedenen Möglichkeiten, mit Bild zu prompten, findet sich hier – ist das wiederum Firefly. Dort kann ich ein Bild mit Stil-Referenz entweder aus einer Galerie auswählen oder selbst hochladen, und ja, dass funktioniert ebenfalls ganz gut.

Links ist ein Kind mit nassen Haaren, das eine orangefarbene Wasserspritzpistole hält. Rechts ist ein Bild von James Cagney als Gangster im Film "White Heat": ein Mann mit ernstem Gesichtsausdruck, der eine Pistole in der Hand hält. Das Bild ist in Schwarz-Weiß mit orangefarbenen Akzenten gehalten.

James Cagney als Prohibitions-Brutalo Cody Jarrett als Vorbild, „Ein Kleinkind auf dem Dreirad mit einer Wasserpistole“ als Prompt. (Spielzeugpistolen hat der Content-Filter verhindert.)

Aber auch mit Bildreferenz kamen wir im Workshop nicht zu Lösungen, die die Profis durchgängig zufriedengestellt haben. Die Schwankungen waren zu groß, der Stil nicht deutlich genug wiedererkennbar: Aus einem Muster lässt sich schwer ein durchgängiger Stil ableiten.

3. Schrauberlösung: Feingetunte KI-Modelle

Im Blogpost über die Hybrid-Modelle hatte ich Comfy UI erwähnt, gewissermaßen die Schrauberwerkstatt für den KI-Bildbastler. Die Comfy-UI-Oberfläche erlaubt, KI-Bildgenerator-Modelle auf eigenen Rechnern zum Laufen zu bringen. Das ist unbestritten nützlich, aber die wahre Magie liegt in den Möglichkeiten, die das bietet.

Ein Screenshot einer Software-Oberfläche zeigt ein Bildbearbeitungsprogramm mit mehreren Diagrammkomponenten und Verbindungslinien. Links ist ein Originalbild einer Person mit ernstem Gesichtsausdruck zu sehen, rechts eine bearbeitete Version derselben Person mit breitem Grinsen, roter Clownsnase und Gesichtsbemalung. Textelemente beinhalten Beschriftungen wie „Step 1 - Load models“, „Step 2 - Upload image for editing“, sowie einen Bereich mit dem Text: „Make this person smile with a big grin, and give him the red nose of a clown.“

Die Schrauberszene rund um Comfy UI nutzt die komplexe Technik vor allem deshalb, weil sie enorme Flexibilität ermöglicht, zum Beispiel durch so genannte LORAs, kleine Dateien, die das Modell an weitere Trainingsvorgaben anpassen. „Mein“ Flux, das mich darstellen kann, arbeitet hinter den Kulissen mit einem LORA; andere LORAs ermöglichen Manga-Stil, Polaroid-Optik, Röntgenbilder… (🌐 Flux Lora)

Klingt beeindruckend, aber im Stil-Workshop fielen sie glatt durch: Der Versuch, analog zu dem personalisierten Bildgenerator aus Folge 1 eine angepasste Flux-Variante mit Stil zu bauen, scheiterte. Vielleicht lag es an den Trainingsbildern, vielleicht daran, dass man länger hätte mit Comfy UI herumbasteln müssen: es kam einfach nichts Verwertbares heraus. Ich glaube, dass man das generalisieren kann: LORAs sind keine besonders praxisnahe Lösung. Sie benötigen zu viel Feinarbeit und zu viele Versuche, bis sie Bilder genau im gewünschten Stil produzieren.

Change my view.

4. Moodboards: Feintuning á la Midjourney

Wie zeigt man einer Profi-Grafikerin, wie man sich das Design vorstellt? Durch ein Album von Bildern, Mustern, Vorbildern: durch ein Moodboard. Midjourney hat sich nicht nur das Wort genommen, sondern auch das Konzept: Als Anwender kann man mit einem Dutzend oder mehr Referenzbilder vorgeben, wie man sich das Ergebnis stilistisch wünscht.

Das Bild zeigt eine Benutzeroberfläche mit dem Titel "Moodboard #2". Es gibt drei Hauptoptionen: "Upload Images" mit der Beschreibung "Upload images from your computer to add to your moodboard.", "Add from Link" mit der Beschreibung "Add images from around the web to your moodboard.", und "Add from Gallery" mit der Beschreibung "Select images from your gallery to add to your moodboard.". Oben rechts befinden sich zwei deaktivierte Buttons: "Set as Default" und "Use in Prompt".

Technisch ist das nichts anderes als ein Feintuning, aber der Unterschied ist spürbar: Die 🌐 Midjourney-Moodboards liefertern im Workshop deutlich bessere Ergebnisse als das Herumgemurkse mit LORAs, und das sofort. Und das ist kein Zufall: Moodboards sind ein Profi-Tool, das es in dieser Form meines Wissens nach bei keinem anderen Anbieter gibt. Und auf das sich der Workshop am Ende ziemlich einhellig verständigte.

Auch das Titelbild für diesen Post ist mit einem Moodboard entstanden, das ich mit meinen Lieblings-Beitragsbildern von janeggers.tech gefüttert habe. Es sollte aber klar geworden sein, dass die Moodboards vielleicht einzigartig sind, aber nicht alternativlos: Auch mit den anderen Methoden kann ich gute Ergebnisse und einen durchgängigen Stil erreichen. Es kostet nur etwas mehr Mühe und deutlich mehr Versuche.

Und jetzt: Der JSON-Trick.

Wenn man in ChatGPT den Stil eines generierten Bildes auf ein anderes übertragen will, muss man nicht unbedingt das generierte Bild in einen neuen Chat laden. Es reicht, folgende Anweisung zu geben: 

Erzeuge ein JSON-Profil aus dem Bild. 

ChatGPT erzeugt dann (meist!) eine kleine Datei im JSON-Format – JSON ist ein Behälter für Steuerdaten, den Programmierer lieben, weil er dafür sorgt, dass ihre Programme die Einstellungen an der richtigen Stelle und mit den richtigen Stelle finden. Und in diese JSON-Datei speichert ChatGPT die Informationen über das erzeugte Bild. Man kann also über den JSON-Trick perfekte Stil-Schablonen erstellen, wie beispielsweise dieser Reddit-User schwärmt.

Ein anthropomorpher Leopard in einem braunen Anzug mit gemusterter Krawatte steht vor einem historischen Gebäude mit Balkonen und geschlossenen Fensterläden.
Bonustitel, wer den literarischen Querverweis errät!

Machen wir das Experiment – und lassen uns zu dem obigen Bild eine JSON-Datei erzeugen. Und wenn man diese Datei in einen neuen Chat lädt und ChatGPT anweist: “Ändere die JSON-Datei so, dass sie von einem Papagei handelt statt von einem Leoparden, und dann erzeuge ein Bild daraus” – oder, Nerd-Variante: einfach in der JSON-Datei das Wort „Leopard“ durch „Papagei“ ersetzt, bekommt man die gewünschte Variante!

Ein Papagei mit einem bunten Kopf trägt einen braunen Anzug und eine Krawatte. Im Hintergrund ist die Fassade eines alten Gebäudes mit einem Fenster und einem kleinen Balkon zu sehen. Der Bildstil erinnert an eine Sepia- oder Vintage-Fotografie. Oben rechts steht: "papagai_kodachrome_profile.json Datei Erzeuge ein Bild". Links oben steht "Bild erstellt".

…bis zu einem gewissen Grad: Wer genau hinschaut: Der Palazzo ist anders, das Krawattenmuster auch. Der Stil ist zwar bewahrt worden, aber die Übertragung funktioniert nicht perfekt.

Und so funktioniert der JSON-Trick:

Das zeigt uns, was die JSON-Datei eigentlich tut: Sie beschreibt nur sehr genau, was in dem Ausgangsbild zu sehen ist – und das in einer Form, die ein Sprachmodell wie ChatGPT gut verarbeiten kann.

Tatsächlich denke ich, dass der Trick keine geheimen Zugänge, keine Steuercodes nutzt – sondern nur darauf basiert, dass Sprachmodelle sehr gut auf strukturierte Daten wie JSON reagieren. Technisch tut der Trick also nichts anderes, als das Sprachmodell eine sehr präzise, gut nutzbare Bildbeschreibung verfassen zu lassen.

Das ändert nichts daran, das er richtig gut ist!

Das Bild zeigt drei nebeneinander angeordnete Porträts: Links ein Mann in einem roten Ringertrikot mit schwarzem Kopfschutz in einer Kampfposition. In der Mitte und rechts ein Papagei, der ebenfalls einen Kopfschutz trägt, einmal im roten und einmal im blauen Ringertrikot. Beide Papageien sind in einer ähnlichen Pose wie der Mann.

Auch das Titelbild dieses Posts ist mit ChatGPT erzeugt und verändert – das erste Papageienbild mit einem JSON des Ringers, das zweite mit einem simplen: „Kann dieser Papagei bitte ein blaues Ringerkostüm tragen?“ Das geht nämlich auch, auch wenn es viel, viel, viel länger dauert als bei Google.

Geht sogar mit Nano Banana!

Auch Googles neues Modell baut letztlich ja auf einem Sprachmodell auf, und kann deshalb nicht nur einst schwierige Kompositionsaufgaben bewältigen: Ein handgezeichneter Cowboy steht ohne Hut in der Wüste. Er trägt ein Hemd, eine Weste, Jeans und einen roten Schal. Ein Lasso hängt an seinem Gürtel. Im Hintergrund sind Kakteen, ein Pferd und Berge zu sehen. Der Himmel ist sonnig.

Zuerst weigert es sich zwar, fragt noch nach, was es eigentlich in diesem JSON beschreiben soll, gibt dann aber doch brav eine Bildbeschreibung als JSON-Datei aus. Gegenprobe: Geht’s bei ChatGPT? – Ja, tut’s. Und mit Nano Banana selbst auch.

Hat die KI gut gepromptet.

 

Auch lesenswert:

Kurzlink zu diesem Artikel: https://janeggers.tech/5loh

Neue Posts einfach per Mail zugeschickt bekommen? Dann hier eintragen; die Mails kannst du natürlich jederzeit wieder abbestellen.

Loading

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert