Endlich: Midjourney ohne Discord-Chat! Aber wie nutzt man jetzt Referenz-Bilder?

Die größte Hürde bei der Nutzung des führenden KI-Bildgenerators fällt weg – dabei aber auch scheinbar die Möglichkeit, Bilder über die Befehle --sref und --cref als Vorbild zu nutzen. Wie’s doch funktioniert – nach dem Klick.

Es ist so viel einfacher geworden, den meiner Ansicht nach besten KI-Bildgenerator zu nutzen: Einfach auf www.midjourney.com gehen, anmelden – entweder mit neuen Kontodaten oder dem alten Discord-Zugang – und das wirklich gelungene Web-Interface nutzen. In der Oberfläche hat man Zugang zu allen bisher erzeugten Bildern und Prompts, der Editor für das „Inpainting“ – das gezielte Generieren einzelner Teile in einem Bild – ist deutlich einfacher geworden, und wichtige Einstellungen über das Bildformat sind das Schieber-Symbol zu erreichen, ohne dass man sich mit den Midjourney-Kommandozeilen-Befehlen herumschlagen muss:

Leider scheint damit auch einer der größten Vorteile von Midjourney wegzufallen: Wie gibt man ein Bild als Vorbild an? Wer das nie gemacht hat: In der Discord-Oberfläche gab es die Möglichkeit, Bilder hochzuladen, sich deren URL (Internet-Adresse) über Rechtsklick zu holen, und die dann in einem /IMAGINE-Befehl als stilistisches Vorbild zu verwenden – ein Beispiel hier. Wirklich nicht selbsterklärend, aber einmalig: Nur Adobe Firefly hat eine vergleichbare, aber nicht ansatzweise so mächtige Funktion.

Statt URL: Bild hochladen, Symbol anwählen

Thumbnail der Mona Lisa mit den drei Symbol-Overlays: Person, Büroklammer, Bild - und oben rechts in der Ecke die Löschen-Schaltfläche Gibt es diese Funktion in der Web-Oberfläche nicht mehr? Ich habe eine Weile gesucht – bis ich über die Beschreibung stolperte: Man kann einfach ein Bild hochladen und auf eine von drei Arten als Vorbild verwenden – einfach indem man auf dem Thumbnail des ausgewählten Bildes das entsprechende Symbol anklickt:

Das Personen-Symbol links wählt Charakter-Referenz aus – wie der Befehl --cref.
Das Büroklammer-Symbol in der Mitte nutzt das Bild als Stil-Vorbild – wie der Befehl --sref.
Das Bild-Symbol rechts nutzt das Bild als Bild-Prompt.

Was setze ich wofür ein? Um die Unterschiede deutlich zu machen, habe ich ein kleines Beispiel gebastelt. Mit der Mona Lisa, die gemeinfrei ist und also keinerlei Urheberrechts-Ärger beim Kopieren auf den Midjourney-Server verursacht.

Screenshot Midjourney: Drei Bilder-Reihen mit jeweils vier Bildern und dem Prompt daneben; oben die Bilder aus dem "Bilder-Referenz"-Beispiel, in der Mitte die Frau im Café aus dem "Character-Vorbild"-Beispiel, unten das "Stil-Vorbild"-Beispiel.

Hier ein Screenshot aller drei Arten, die Mona Lisa als Referenz anzugeben: Fangen wir mit der Reihe in der Mitte an.

„Character Reference“: Die Mona Lisa im Café

„Erstelle mir die 8-Bit-Pixel-Figur eines Superhelden“: Bis vergangenen Herbst sah der leider jedes Mal anders aus. Selbst wenn man den „seed“, den Zufallswert einfriert, mit dem der Bildgenerator anfängt (und was noch mal ein Extra-Spezialthema ist), wird dieser Superheld einige unerwünschte Wandlungen durchmachen, wenn man ihn in verschiedenen Situationen darstellen will. Der Zufall ist auch bei den Bildgeneratoren der mächtigste Faktor beim Prompten.

Um genau dieses Problem zu lösen, hat Midjourney im Herbst die „Character Reference“ eingeführt: Man kann ein Bild einer Figur angeben, und Midjourney versucht dann, diese Figur zu reproduzieren. Wie wir sehen, funktioniert das mit der Mona Lisa ganz gut: die junge Frau, die ich hier ins Café gesetzt habe, hat eindeutig Ähnlichkeit mit ihr.

Junge Frau in einem Café, Ähnlichkeit mit der Mona Lisa, stilistisch zwar eine Illustration, aber eindeutig kein Renaissance-Gemälde

Auch am Stil hat sich die KI orientiert – aber in Maßen: Das Bild sieht zwar aus wie eine Illustration, aber ganz klar nicht wie ein Renaissance-Gemälde.

Kleine Randanmerkung zur „Character Reference“: Für erfundene Charactere, für Illustrations- oder Videospiel-Figuren funktioniert sie deutlich besser als für real existierende. Das hier stellt meinen damals besten Versuch, den Kanzler Olaf Scholz in das Gewand des Blechmanns aus dem „Zauberer von Oz“ zu stecken. Sehr ähnlich sieht ihm das nicht, und von Bildern mit mir selbst war das Ergebnis ähnlich weit entfernt. Ein „Character Reference“-Bild mit der Mona Lisa als Vorbild und dem Prompt „A young woman in a café, photorealistic“ produziert dann ein „Foto“ einer jungen Frau mit derselben Frisur wie beim Renaissance-Vorbild, und vielleicht ein wenig von ihrem Lächeln.

„Style Reference“: Leonardo als Maler

Dasselbe mit dem Büroklammer-Symbol, mit einem etwas anderen Prompt („A woman standing in a bar“): Jetzt ist es, als hätten wir uns Leonardo geholt und beauftragt, ein Bild aus einer modernen Bar zu malen – nur eben in seinem vertrauten Stil. Das Ergebnis hat eindeutigen Schinken-Charakter, die dargestellte Frau in allen Ergebnissen wenig Ähnlichkeit mit der Mona Lisa.

Blonde Frau in einer Bar dreht sich zum Betrachter um; Gemälde-Anmutung

Die Stil-Referenz ist gut, wenn man beispielsweise ein Storyboard bauen will oder ein Comic-Geschichte erzählen – in einem halbwegs konsistenten Stil, aber mit unterschiedlichen Bild-Inhalten. Dabei hilft es auch, dass ich nicht nur Bilder hochladen und als Prompt nutzen kann – sondern jedes zuvor von mir erzeugte Midjourney mit einem Bild zum Vorbild erklären. Zu sehr darf es auf die Figuren allerdings dann nicht ankommen.

Und wozu ist ein Bild-Prompt gut?

Die Möglichkeit, ein Bild als Prompt anzugeben – und nicht nur einen Text – die hat Midjourney schon ziemlich lange, auf jeden Fall deutlich länger, als die Stil-Referenz und die Character-Referenz. Es ist so wenig eine Mischung aus beiden, und doch sowohl von der Figur als auch von der Anmutung deutlich weiter entfernt: Die Resultate sehen für mich eher nach modernen, impressionistisch Bildern oder nach Kitschpostern aus als nach Renaissance-Gemälde. (Kunsthistoriker: bitte nicht hauen, ich trage eine Brille!) In jedem Fall hat die Frau auf dem Bild wenig von der Mona Lisa, außer dass sie auch weiblich und jung ist.

Frau, die keine Ähnlichkeit mit der Mona Lisa hat, an Bartresen

Was der Bildprompt tut, kann man sich vielleicht am besten so vorstellen: Es gab ja im Discord-Chat-Midjourney die Funktion, sich ein Bild beschreiben zu lassen – und dann neu zu generieren. So ähnlich ist das mit dem Bild als Prompt: Die KI nutzt eine sehr abstrakte Form des hochgeladenen Bildes als Anweisung, wie sie das neue Bild zu erstellen hat.

Die /DESCRIBE-Funktion, die mir direkt Bilder in Text-Beschreibungen verwandelt, habe ich leider in der Web-Oberfläche nicht mehr gefunden; und dafür lohnt es sich dann doch noch, Discord zu nutzen: Bekannte Bilder beschreiben und neu erzeugen lassen, und dann mit anderen das Original-Bild raten, ist ein Riesen-Pub-Quiz-Spaß!

Auch lesenswert:

Kurzlink zu diesem Artikel: https://janeggers.tech/yrbo