KI, an 8 Bit gemessen

Wie groß ist der Abstand der europäischen Mistral-KI einerseits zum Marktführer ChatGPT – und wie dicht ist beiden das Qwen3.6-Modell auf den Fersen, das auf dem eigenen Rechner läuft? Ein uraltes Computerspiel liefert eine überraschende Antwort.

Vielleicht habt ihr ihn hier oben schon mal gesehen.

Das pixelige Weltraummonster, schwarzweiß und nur 16×16 Pixel groß, ist Pop, auch wenn die meisten Menschen das Spiel dahinter gar nicht mehr kennen dürften: Space Invaders. Eins der ersten Spiele, die in Form von Spielautomaten um 1980 in Kneipen und Kinofoyes kamen. Und die mich als Kind total fasziniert haben: Außerirdische! Weltraumkampf! Deckung und Schießen! Und über allem diese vier hypnotischen Basstöne, die immer schneller wurden.

Dieser Tage nutze ich Space Invaders als kleine Einführung in die Welt des „Vibe Codings“: ich lasse meine Seminarteilnehmerinnen und -teilnehmer Mistral öffnen und eintippen: „Programmier mir Space Invaders, mit Javascript und HTML5, dass ich es gleich spielen kann.“ Das Ergebnis ist natürlich stark zufallsabhängig, und niemals perfekt; die frisch gebackenen Vibe Coder können also wunderbar ausprobieren, wie man dem Chatbot Verbesserungsvorschläge macht.

Bekommt ChatGPT es besser hin? Wenn ich für Mistral als einzige europäische KI werbe, behaupte ich, dass der Abstand bei Alltagsdingen gar nicht so groß ist; mit Space Invaders ließe es sich gut visualisieren. Und wie gut schlägt sich lokale KI – ein Sprachmodell, das auf meinem Macbook läuft?

Das Ergebnis des kleinen Experiments hat mich an zwei Stellen überrascht. Kurz gesagt:

Die kostenlose, lokale Qwen3.6-KI liefert das beste Gesamtergebnis, produziert allerdings jede Menge Programmierfehler. Erst der Einsatz eines zweiten Sprachmodells/Prompts erzeugt lauffähigen Code.
Die Kostenlos-Ausgabe von ChatGPT löst die Aufgabe nicht besser, sondern schlechter. Außerdem nervt der Chatbot mit unhandlichen Beschränkungen.
Weniger überraschend: Claude Code spielt in der Profi-Liga. Allerdings habe ich dafür ja teuer bezahlt.

Nun ist ein einmaliger Versuch kein systematischer Test; um wirklich belastbare Aussagen zu treffen, müsste man das Spiel öfter generieren und beurteilen lassen. Trotzdem wage ich mal ein paar verallgemeinernde Aussagen:

Das Qwen3.6-Modell von Alibaba basiert auf sehr guten Trainingsdaten für Programmier-Aufgaben – die allerdings so stark gestaucht sind, dass immer wieder Fehler auftauchen müssen, wie bei einem zu stark komprimierten Video.
Mit Geduld – und einem zweiten Modell, das die Fehler findet und korrigiert – könnte die lokale KI durchaus konkurrenzfähig sein, zu niedrigsten Kosten und ohne Cloud-Sorgen, also vollkommen souverän und diskret.
Ein großes Warnsignal gibt es auch hier: Niemand garantiert uns, dass Alibaba und Co. ihre Top-KI weiter verschenken. Der sehr wache KI-Berater Tristan Behrens bemerkt, dass der Vorstellung der neuesten Qwen3.7-Version ein lautes Schweigen in Hinblick auf Download-Versionen folgte (🌐 LinkedIn). Auch Mistral scheint nicht mehr alles direkt zum Download anzubieten (🌐 Reddit-Thread), europäische Souveränität hin oder her.
Was zeigt: Die fetten Jahre sind vorbei. Die Erwartung, dass KI wenig bis gar kein Geld kostet, ist ohnehin naiv; allmählich bekommen wir die steigenden Rechnungen.

Hier die Detailergebnisse.

Mistral: Im ersten Schritt gibt’s Klötzchen

Versuchsaufbau: Angemeldetes Bezahlkonto, was aber beim Modell keinen Unterschied machen sollte: auch angemeldete Kostenlos-Kunden können wie ich den Reasoning-Modus einstellen („Denken“). Prompt: „Eine Version von Space Invaders, die ich gleich spielen kann, mit HTML5 und Javascript, als eine HTML Datei.“

Typisch für das, was man von Mistral im ersten Anlauf bekommt: Spielbar, aber nicht schön. Blöcke statt Weltraummonstern, die Bunker verschwinden nach dem ersten Treffer, statt langsam unter Feuer zu zerfallen, und keine Explosionen. Und natürlich keine Soundeffekte. Kann man alles bei Mistral bestellen (und bekommt’s auch), aber eben erst auf Nachfrage.

GIF-Animation des Mistral-Gameplays: Der Screenshot zeigt ein Retro-Computerspiel mit einer schwarzen Benutzeroberfläche. Oben steht: "Leben: 3 Punkte: 0". Unter diesem Text sind mehrere Reihen von bunten Blöcken in Rot, Orange, Gelb und Grün. Unten befindet sich eine grüne Plattform und ein kleiner gelber Ball darüber - ein Schuss. Darunter sind blaue Blöcke - die Bunker

Wer es nachmachen will: es kommt immer wieder vor, dass Mistral vergisst, dass es solche HTML5-Javascript-Spielereien gleich anzeigen kann. Wer nur Code bekommt mit der Anweisung, den müssen man jetzt erst kopieren und in eine Datei schreiben, sollte vom Chatbot fordern: „Zeig mir das in einem Canvas!“ Dann bekommt man ein Code-Fenster mit Vorschau-Funktion – gegebenenfalls auf „Erweitern“ und das Augen-Symbol klicken.

➡️ Ausprobieren? Hier entlang! (Öffnet die HTML5-Datei in neuem Fenster)

Claude Code: Mäkeln auf sehr, sehr hohem Niveau

Versuchsaufbau: Claude Code Max mit Opus 4.8, auf „Auto“ (YOLO-Modus). In einer Session zunächst Pacman mit Javascript/HTML5 in einer Datei erstellen lassen, dann die Invaders.

Claude Code baut mir das Spiel ohne Aufhebens – allerdings habe ich ein Claude-Max-Bezahlabo, was den Vergleich etwas unfair macht. Das Resultat ist ohne Fehl und Tadel – fast: Keine Soundeffekte, die Aliens zu dicht aufeinander, nicht ganz ausgewogen. Aber das wäre in der nächsten Iteration beseitigt.

➡️ Ausprobieren? Hier entlang! (Öffnet die HTML5-Datei in neuem Fenster)

ChatGPT free: Herbe Enttäuschung.

Versuchsaufbau: ChatGPT free (angemeldet), Prompt auch hier: „Eine Version von Space Invaders, die ich gleich spielen kann, mit HTML5 und Javascript, als eine HTML Datei.“

ChatGPT nervt erst einmal gewaltig. Beim Platzhirschen ist es gar nicht so einfach, ein spielbares Ergebnis zu bekommen – weil er mich wieder in das Bezahl-Konto drängen will, das ich früher auch mal hatte: Nach einer ersten, sehr rudimentären Version will es mir kein verbessertes Spiel generieren, weil geschätzt 1000 Zeilen Programmcode die zugelassene Antwortlänge überschreiten würden. (🌐 ChatGPT-Chatverlauf hier.) Der Chatbot lässt sich schließlich überzeugen, seine verbesserte Version in drei Häppchen aufzuteilen, die ich pflichtschuldigst zusammenkopiere und starte…

…nur um dieses Desaster zu erleben: Von den angekündigten Verbesserungen hat ChatGPT wenig umgesetzt. Die Schüsse der Weltraummonster hageln viel zu dicht, die Bunker bieten keinen Schutz. In dieser Fassung nicht spielbar.

Ehrlich gesagt hätte ich von ChatGPT mehr erwartet – und vermute, dass das ein deutliches Indiz ist: Die Zeiten von Spitzen-KI für Kostenlos-Kunden sind vorbei. Ich bin mit dem Probierangebot abgespeist worden.

➡️ Ausprobieren? Hier entlang! (Öffnet die HTML5-Datei in neuem Fenster)

Qwen3.6: Lang warten, dann Wartung, dann unerwartet ein Wow.

Versuchsaufbau: Mac M4 mit 48GB und Ollama, Modellvariante: Qwen3.6-coding-27b-nvfp4 also ein auf Coding optimiertes Dense-Modell, herunterquantisiert auf 4 Bit. Als „pair programmer“: Googles Gemma4-31b-it-qat, also mit adaptiver 4-Bit-Quantisierung. Also: Mittelklasse-Modelle, die so weit zusammengequetscht wurden, dass sie noch halbwegs vernünftig arbeiten können, aber trotzdem auf meinem Mac laufen.

Lokale KI ist etwas für Geduldige. Selbst wenn das unter Open-Source-Gesichtspunkten fragwürdige, aber komfortable 🌐 Ollama die Installation eines kostenlosen lokalen Modells zum Kinderspiel macht: erst einmal wollen rund 20 Gigabyte Daten heruntergeladen werden, und die Ausführung des Programmier-Auftrags dauert ihre Zeit, selbst auf meinem recht KI-flotten M4-Mac. Bei den kommerziellen Modellen entsteht das Programm in Sekunden bis Minuten, die die KI auf meinem Rechner braucht gefühlt den halben Vormittag.

Als dann schließlich das erste Ergebnis da ist, liefert es mir einen sehr vielversprechenden Startbildschirm – aber es läuft nicht los. Der Code enthält offensichtlich Bugs. Also starte ich eine zweite lokale Session, mit dem etwa gleich großen Gemma4-31b-Modell, das die Fehler sucht und auch findet: nach der zweiten Runde – und einer weiteren Stunde – springt die lokal programmierte Space-Invaders-Variante an. Und wie.

Die lokal generierte Variante spielt sich gut, sieht hervorragend aus – bis auf einen Pixelfehler in der Animation – und bietet sogar Soundeffekte. Deshalb bekommt sie hier auch ein Video.

➡️ Ausprobieren? Hier entlang! (Öffnet die HTML5-Datei in neuem Fenster)

Informierte Spekulation: Wie alltagstauglich ist Qwen3.6?

Jetzt mal auf dem Teppich bleiben: Ein mittelkleines Modell mit 27 Milliarden Parametern kann nicht wirklich besser sein als die State-of-the-art-Modelle der KI-Riesen OpenAI und Anthropic. Wenn man ein KI-Modell als eine sehr, sehr effiziente Methode sieht, Informationen über Programmcode zu speichern, dann muss die Information im Open-Weights-Modell Qwen3.6 deutlich schlechter sein als bei Modellen, die zwei Größenordnungen darüber liegen dürften. Dass ChatGPT so schlechte Resultate liefert, liegt eher daran, dass OpenAI die Bezahlschranken senkt; das führende GPT5.5-Modell habe ich ja nicht einsetzen dürfen, aber auch die Vorgänger-Versionen können deutlich mehr. Aber eben nur gegen Geld.

Die Fehler im Qwen-Code dürften vor allem darauf zurückgehen – und darauf, dass das Modell ja quantisiert, also nochmals zusammengequetscht werden musste, um überhaupt auf meinem Computer zu laufen. Trotzdem nähert sich das chinesische Open-Weights-Modell auch hier der „Gut genut“-Grenze für Alltagsaufgaben, besonders wenn man es mit einem zweiten Agenten zusammenspannt, der prüft und verbessert.

Dazu passt, dass Alibaba gerade ein Modell veröffentlicht hat, an dem die kleine KI Befehle erst ausprobieren kann, ehe es sie anwendet: Das Qwen-AgentWorld-Modell ist ein Simulator, in dem KI-Agenten Befehle auf der Kommandozeile, an Office-Programme oder die Websuche durchspielen und verbessern können. (🌐 Alibaba-Blog)

Allerdings könnte es sein, dass die Freude über die Kostenlos-Technik von kurzer Dauer ist, wenn Alibaba sich tatsächlich entschließt, die Modelle in Zukunft nicht mehr so freigiebig anzubieten.

Dass das ebenfalls mittelkleine, aber nicht so sehr auf Programmieren optimierte Mistral halbwegs mithalten kann, hat mich gefreut; ich hatte erwartet, dass der Vergleich schlechter ausfällt. Mistral dürfte im neuerdings „Vibe“ genannten Chatbot* das neue Mistral-medium-3.5-Modell einsetzen, das es übrigens auch „open weights“ gibt – es hat 128 Milliarden Parameter, wäre auf meinem Mac also selbst brutal quantisiert kaum noch gelaufen. Auf meinem Heim-KI-Rechner läuft es gerade noch so und befeuert einzelne Agenten – eine Abenteuerreise, über die ich ein anderes Mal berichte.

* Wie alle billig und gerecht denkenden Mistral-Fans finde ich diese Umbenennung eine Frechheit! Ich! Will! Le Chat! Wieder! Zurück!1!11!!! <krückstockfuchtel>

Auch lesenswert:

Kurzlink zu diesem Artikel: https://janeggers.tech/ovju

Mistral: Im ersten Schritt gibt’s Klötzchen

Claude Code: Mäkeln auf sehr, sehr hohem Niveau

ChatGPT free: Herbe Enttäuschung.

Qwen3.6: Lang warten, dann Wartung, dann unerwartet ein Wow.

Informierte Spekulation: Wie alltagstauglich ist Qwen3.6?

Auch lesenswert:

Kommentare

Schreibe einen Kommentar Antwort abbrechen