Nach der ersten Runde des „KI-Tabu“ – male einen Biber mit einer Bild-KI, ohne die Begriffe Biber, Baum, Nagetier, nagen, platter Schwanz zu verwenden – konnte ich eine neue Spielrunde ausprobieren – und auch die verrät uns eine Menge darüber, wie die verschiedenen Bild-KI-Modelle ticken.
Gerade bin ich zurück von der nr23, der Netzwerk-Recherche-Jahreskonferenz. Viele wunderbare Journalistinnen und Journalisten durfte ich dort treffen; es war gehaltvoll, inspirierend – und natürlich hatte ich wieder einen Heidenspaß dabei, die 2023er Version des NR-KI-Pub-Quiz auszurichten. Mit einer KI-„Tabu“-Runde wie im Vorjahr – wie man die hätte gewinnen können, habe ich ja hier verraten, deshalb gab es diesmal natürlich angepasste Regeln.
Hürde für Bild-KI: Die Dinge ins richtige Verhältnis setzen
Hintergrund war eine Beobachtung: So brilliant Midjourney Fotos von x, y oder z generiert – meine simple Bitte, eine blaue Katze neben einer grünen Katze auf zwei Teller zu setzen, führte nicht zum gewünschten Erfolg. Mit zusammengesetzten Prompts scheint sich das vorgeschaltete Sprachmodell schwer zu tun: Blau, grün, zwei Katzen, ein Teller – all das kommt irgendwie vor, aber nicht in der Kombination, wie es der Prompt aus menschlichem Verständnis vorschreibt.
Es gibt auch einen schicken linguistischen Begriff dafür, den ich nicht mehr finde (was wahrscheinlich besser ist, sonst würde ich am Ende noch so tun, als verstünde ich etwas davon) – und eine Reihe von Prompts in einem Test, der genau auf diese Fähigkeit prüft.
Also habe ich mir gedacht: Wenn die Modelle sich mit dem richtigen Verhältnis der Dinge so schwer tun, wäre das eine gute Aufgabe für die nächste Pub-Quiz-Runde: „Ein Roboter, der ein Einhorn malt.“ Dass die Worte „unicorn“, „horse“ und „pony“ tabu waren, kam als kleine zusätzliche Hürde dazu.
Und wie sich die Modelle dabei geschlagen haben, ist lehrreich.
DeepFloyd > DALL-E2 > StableDiffusion
StableDiffusion ist das schlechteste Werkzeug, um die Objekte wie gewünscht in Szene zu setzen – das merkten die Pub-Quiz-Teilnehmer sehr schnell. Nur ein Team reichte ein Bild ein, das nach einhelliger Meinung das künstlerisch wertvollste war – allerdings leider nicht das kleinste bisschen Einhorn enthielt.
DeepFloyd IF, ein Verwandter von StableDiffusion mit etwas anderem technischem Aufbau, soll besonders gut Schilder und andere Texte im Bild erzeugen können – das können die Bildgeneratoren sonst auch nicht so gut. Aber auch die räumlichen Beziehungen zwischen den Objekten im Prompt versteht DeepFloyd sehr gut – volle Punktzahl. (Die etwas fragwürdige Ästhetik floss nicht in die Punktewertung ein.)
Volle Punktzahl auch für das Bild, das allen ein spontanes „Awwwwww….“ entlockte – der Kinderzeichnungs-Stil gewann Herzen. Allerdings hat es drei Schwächen: Das Einhorn hat streng genommen kein Horn, dafür hat der Roboter eine Tunfischflosse auf dem Kopf, und es ist offensichtlich mit dem OpenAI-Bildgenerator Dall-E2 erzeugt, der eigentlich nicht zugelassen war.
Was die räumlichen Beziehungen angeht, steht er zwischen StableDiffusion und DeepFloyd – schon ganz gut, aber DeepFloyd ist besser.
„Ferrari Logo“ statt „Pferd“ – gute Idee, aber…
DeepFloyd allein sicherte keinen Sieg bei dieser Spielrunde – da war noch die Sache mit dem Einhorn bzw. dem Pferd. Ein Team hatte zwar eine deutliche Synonymschwäche, kam aber auf die kreative Idee, den Roboter ein Ferrari-Wappen malen zu lassen.
Auch hier hat DeepFloyd die Objektbeziehungen gut hinbekommen – allerdings fehlten die Einhornhörner, und auch das Tier auf dem Wappen auf der Kühlerhaube kann nur mit sehr viel gutem Willen als Pferd bezeichnen.
Die Sache mit den negativen Prompts bei Midjourney
Außer Konkurrenz hat Claus, der Schiedsrichter, versucht, die Aufgabe mit Midjourney zu lösen – und ist daran gescheitert. Mein Eindruck, dass Midjourney nicht besonders gut ist in Objektbeziehungen, hat sich bestätigt – hier malt das Tier einen Roboter (well), nicht der Roboter ein Tier.
Die Idee, das Pferd/Einhorn als ein „Zebra ohne Streifen“ zu prompten, hat so auch nicht funktioniert – das hatte ich ja neulich schon bei der Geschichte vom Bart erwähnt. Dabei sind negative Prompts bei Midjourney durchaus möglich – entweder, indem man den Streifen ein negatives Gewicht gibt („stripes::-2.0“), oder durch das Kommando –no („zebra –no stripes“).
Bei meinen Tests hat beides nicht funktioniert. Es bleibt also auch das nächste Mal spannend! Nächstes KI-Pub-Quiz ist geplant für die SCICAR Ende September. Nicht nur deshalb schon mal den 29./30.9. vormerken!
Schreibe einen Kommentar