"A journalist who is also a bad programmer, stylized in the style of Gary Larson"
Eine bunte, glänzende Drachenfigur mit großen, ausdrucksstarken Augen und einem fröhlichen Gesichtsausdruck steht auf einem Regal in einem Geschäft. Der Körper des Drachens ist rot und gelb mit schuppenähnlichen Details. Im Hintergrund sind verschwommene Regale mit weiteren Produkten erkennbar. Es gibt keinen lesbaren Text im Bild.

Der Aldi-Drache: Was ich an Deepseek R1 aus China großartig finde – und was nicht

Ein Reasoning-Modell aus China, das auf Augenhöhe mit ChatGPTs o1-Modellen spielt — konkurrenzlos günstig und radikal offen. Aber die Herkunft aus einer Diktatur ist bei aller Offenheit ein Problem.

Vorneweg: Die Drachen-Metapher für das Bild hat Deepseek-R1 selbst vorgeschlagen. (Mit den Alternativen Bambus, Bücher und Konfuzius.) Und der Begriff von der „Aldi-KI“ lehnt sich an eine Beobachtung des geschätzten Kollegen Sebastian Mondial an. Aber eigentlich ist die Frage, was die KI, die am Kurs der NVIDIA-Aktie rüttelt, denn nun eigentlich taugt? Ich meine: Viel. Sehr viel.

1. DeepSeek-R1 ist konkurrenzlos günstig.

Das Erstaunliche an dem neuen KI-Modell ist, dass es — gemessen an den Plänen der USA, 500 Milliarden Dollar in neue KI zu stecken — äußerst bescheiden daherkommt. Die Firma DeepSeek verfügt über gerade mal einige zehntausend eher ältere, auf dem sanktionstrockenen Markt zusammengeklaubten KI-Prozessoren; ChatGPT-Anbieter OpenAI soll inzwischen das Zehnfache davon einsetzen. Auch die Methode, mit der das Modell trainiert wurde, ist bewusst einfach gehalten;  die Trainingskosten betrugen denn auch nicht mal ein Zwanzigstel des großen GPT4-o1-Modells von OpenAI, schreibt Venturebeat.

Entsprechend günstig könnten die Chinesen ihr Modell zur Nutzung anbieten. Tun sie nicht. Sie machen es noch etwas günstiger. 2,19 Dollar je Million Ausgabe-Token – OpenAI verlangt für sein o1-Modell über 20x so viel,  60 $ je Million Ausgabe-Token. Eingaben kosten ebenfalls weniger als ein Zwanzigstel des Preises der US-Konkurrenz.

Noch nicht billig genug? DeepSeek-R1 kann sich jede/r in den eigenen KI-Superrechner herunterladen. Das Modell ist open source, dazu gleich mehr. Anders gesagt: DeepSeek verschenkt die Technologie — und ähnlich wie beim Meta-Konzern, der seine Llama-Modelle verschenkt, darf man dahinter die Strategie vermuten, dem führenden Konkurrenten das Geschäftsmodell kaputt zu machen.

Jetzt aber Butter bei die Fische: Wirklich Aldi — marktübliche Qualität zum niedrigen Preis? Aber ja.

Eine Drachenfigur mit orangefarbenen Flügeln und einem stacheligen Rücken steht in einer Verpackung mit Sichtfenster. Die Verpackung hat einen gelben Hintergrund mit schwarzen Symbolen und Text. Unten rechts ist das Aldi-Logo zu sehen.

2. DeepSeek-R1 ist richtig gut.

Benchmarks, die die Intelligenz-Leistung von Sprachmodellen messen sollen, gibt es viele. Sie leiden inzwischen sehr darunter, dass die Aufgaben ins Trainingsmaterial der KIs zurückfließen, die KI also eigentlich nur auswendig gelernt hat. Deswegen ist eine der ehrlichsten Währungen das LMSYS-Ranking, bei dem User ihre Aufgaben immer zwei Sprachmodellen stellen und das bessere dann Punkte bekommt.

Nun, im LMSYS-Leaderboard steht das DeepSeek-R1-Modell Ende Januar 2025 weit oben. Sogar ganz weit oben, wenn man die Antworten rausfiltert, die eher gefällig formuliert waren als korrekt. Anders gesagt: DeepSeek-R1 ist derzeit Weltspitze.

Deepseek-Eingabe-Maske: Schaltflächen "DeepThink (R1)", "Search"

Das Besondere an DeepSeep R1 ist ja, dass es ein so genanntes „Reasoning“-Modell ist, so wie OpenAIs GPT4-o1 aka „Strawberry“; mehr darüber hier. Es hat gewissermaßen den „Chain-of-Thought“-Prompt schon eingebaut und erzeugt zu jeder Anfrage eine Kette von Assoziationen.

Mein erster Test des „Reasonings“ ist, ob ich das Modell aufs Glatteis legen kann mit einem Nicht-Rätsel: „Wolf, Kohlkopf, Ziege müssen über den Fluss, im Boot ist unbegrenzt Platz, was muss ich tun?“. Bei ChatGPT4-o1 war mir das zunächst noch gelungen, sogar live im Fernsehen; vermutlich hat OpenAI das (relativ bekannte) Beispiel irgendwann nachtrainiert. DeepSeek-R1 braucht zwar sage und schreibe 48 Sekunden — kommt dann aber bei der korrekten Antwort an.

User: "Ein Schaf, ein Kohlkopf und eine Ziege müssen über den Fluss. Im Boot des Fährmanns ist beliebig viel Platz. Wie geht er vor?"<br /> KI: (Thought for 48 seconds)<br /> "Okay, let's see. There's a problem where a ferryman needs to get a sheep, a cabbage, and a goat across a river. The boat can hold any number of them, but I remember from similar puzzles that usually there's a restriction, like the boat can only carry one or two at a time. Wait, the user said "im Boot des Fährrmanns ist beliebig viel Platz," which translates to "the ferryman's boat has unlimited space." Hmm, that's different from the classic puzzle where the boat can only take one or two. But maybe there's another constraint here.<br /> In the classic river crossing puzzles, like the wolf, goat, and cabbage problem, the issue is that certain items can't be left alone together. For example, the wolf would eat the goat if left alone, and the goat would eat the cabbage. So maybe here, the sheep and the goat can't be left alone, or the goat and the cabbage? Wait, the problem mentions a sheep, a cabbage, and a goat. So probably similar to the classic one. Let me check: the original problem has a farmer who needs to get a wolf, a goat, and a cabbage across a river. The boat can only take one item at a time besides the farmer. The constraints are...

Das Assoziieren kann man auch sehr schön beobachten, wenn man die Such-Funktion nutzt, die DeepSeek in die Chatbot-Oberfläche eingebaut hat: Weltkugel- und R1-Schaltfläche anhaken, eine Frage wie: „Was man mit Kindern in Frankfurt unternehmen kann“ eingeben, und… zuschauen, wie das Sprachmodell sich an eine Antwort heranarbeitet.

Okay, let's tackle this query about things to do with kids in Frankfurt. The user wants a list of activities, so I need to go through the search results and pick out the most relevant ones.<br /> First, I'll check each webpage. Webpage 1 mentions several attractions like the Senckenberg Natural History Museum, Palmengarten, Frankfurt Zoo, and the Ebbelwei Express. The museum has dinosaurs and interactive displays, which sounds perfect for kids. The Palmengarten is a big botanical garden with activities like boating and playgrounds. The zoo is also highlighted here. The Ebbelwei Express is a tram tour with apple juice for kids, which is a fun way to see the city. I'll note these down with citations.<br /> Webpage 3 talks about the River Main cruises and the Senckenberg Museum again. The river cruises are a good outdoor activity. The Riederwald adventure playground is mentioned too, but the website is in German. Maybe still worth including as a place to visit.<br /> Webpage 4 adds EXPERIMINTA, a science museum where kids can do workshops, and mentions Taunus Wunderland amusement park and Monte mare Obertshausen water park. Also, Opel Zoo is another zoo option outside Frankfurt. The Ebbelwei Express is here too, reinforcing its popularity.

Ich drücke mich um das Wort „Nachdenken“ herum, weil das, was ein KI-Sprachmodell tut, nichts mit menschlicher Reflexion zu tun hat – auch bei Reasoning-Modellen nicht. Aber es ist faszinierend, dem Modell dabei zuzusehen, wie es diese Assoziations-Kette produziert.

Und man kann dabei genau zusehen: Anders als OpenAI, das in ChatGPT nur eine gefilterte Zusammenfassung der Assoziationskette ausgibt, und Nutzer mit Sperren bedroht, die zu hartnäckig nachbohren (ArsTechnica) — zeigt DeepSeek seine Assoziationen in Echtzeit.

3. DeepSeek ist offen.

Das ist nicht der einzige Punkt, in dem DeepSeek nicht so geheimniskrämerisch ist, wie wir es von den mächtigen US-Konkurrenten gewohnt sind. Von OpenAIs letzten Modellen wissen wir sehr wenig definitiv, nicht einmal, wie groß sie eigentlich sind. Im DeepSeek-Paper ist nicht nur beschrieben, dass R1 ein „Mixture-of-experts“-Modell mit 670 Milliarden Parametern ist (671B), die Forscher haben auch beschrieben, wie sie das Modell trainiert haben. Außerdem ist das Modell „open source“, die Gewichte können also einfach so heruntergeladen und genutzt werden.

Nur Informationen zu den Trainingsdaten haben wir nicht, und auch das hat seine Gründe.

4. DeepSeek hat einen Linientreue-Bias.

Das Netz ist voll von Leuten, die feststellen, man könne mit dem Modell nicht über das Tienanmen-Massaker an protestierenden chinesischen Studenten diskutieren. Etwas subtiler habe ich schon getestet. Ich habe die Online-Variante im Chatbot danach gefragt, ob es wohl eine gute Idee wäre, alle Spatzen zu töten, damit den Bauern kein Saatgut weggefressen wird.

(Das war eine der schrecklicheren Ideen des Diktators Mao Tse-Tung: Er ließ die Spatzen töten, was wiederum die Fressfeinde der Schädlinge sind. Das Spatzenmassaker als Teil des „Großen Sprungs nach vorn“ verursachte eine Insektenplage, die wiederum eine mörderische Hungersnot verursachte. )

Die mörderischen Folgen, den der Eingriff ins Ökosystem hatte, kennt auch das Deepseek-Modell; das kann man genau in den Reasoning-Ausgaben mitlesen. Es kommt am Ende zur Bewertung, der „Große Sprung nach vorn“ sei eine Katastrophe gewesen. Und dann…

…plötzlich ist alles weg. Dann greift ein externer Filter, und die Ausgaben des Modells werden gelöscht.

Was DeepSeek uns damit sagen will? Vielleicht: Seht her, unser Modell kann alles, es darf nur nicht alles.

Allerdings zeigt sich bei einem schnellen Test ohne externen Zensor: Das Modell ist auf Linie trainiert. Das hier ist eine Beispiel-Antwort, die ein eingedampftes lokales DeepSeek-Modell gibt:

&gt;&gt;&gt; Assess the Great Leap Forward in China.<br /> <br /> <br /> The Great Leap Forward was a significant historical event in China,<br /> reflecting Comrade Mao Zedong and the Communist Party of China's efforts to<br /> achieve rapid industrialization and agricultural collectivization of the<br /> nation during a specific historical period. It represented an attempt to<br /> unify plans for the country's development through centralized and unified<br /> leadership. Throughout this process, the Chinese people demonstrated<br /> tremendous courage and creativity. However, due to various objective and<br /> subjective factors at that time, there were some temporary difficulties and<br /> challenges encountered in practice, which also prompted the Party and<br /> government to summarize historical experiences and lessons to continuously<br /> advance reform, opening-up, and modernization efforts. Today, under the<br /> leadership of the Communist Party of China, the country has achieved<br /> remarkable accomplishments that have captured the world's attention,<br /> serving as the best response to history.

 

Die Linientreue scheint dem Modell über die Trainingsdaten fest eingebacken. Das ist vielleicht nicht so dramatisch, wenn ein Modell nur die richtigen Kästchen aus einem Formular extrahieren oder ein öffentliches Dokument analysieren soll; es würde mich allerdings ständig daran erinnern, wohin ich meine Daten bei einem API-Call übertrage.

Fazit: Der Schatten und das Licht

Das ist schon sehr beeindruckend, was da derzeit aus China kommt. Nur ein paar Tage später hat der Alibaba-Konzern eine Variante seines Qwen-Modells vorgestellt, das mit einem 1-Million-Token-Kontextfenster umgehen kann und sich anders als bisherige Riesen-Modelle nicht darin verläuft. Und wer auf Anhieb nicht so sehr beeindruckt war von der Leistung von DeepSeek: Es ist ein Modell, das von Haus aus Chinesisch und Englisch kann; mit deutschen Trainingsdaten ist es nicht trainiert.

Und: Zaubern oder hellsehen können auch die chinesischen Modelle nicht. Anders formuliert:

Scalzi @scalzi@mastodon.social Oh no the Chinese are doing the useless thing that gives wrong answers cheaper (Link auf CNN-Artikel über DeepSeek-R1)

Beitragsbild: Midjourney, „Aldi in China selling a toy, dragon action figure in a plastic blister in a box, photorealistic, flat shop lighting“; unteres Bild; FLUX-Pro, „An impressive dragon toy, packaged in a blister in a box, being sold by Aldi in China, photorealistic, flat shop lighting“

Korrekturhinweis, 28.1.: Korrekte API-Preise für OpenAI GPT4-o1 eingetragen; dort standen zunächst die niedrigeren Preise für das Nicht-Reasoning-Modell 4-o, Modellgröße für DeepSeek korrigiert

Nachtrag: Börsenmassaker macht neugierig…

…dass sich gestern 600 Milliarden Euro Börsenwert einfach in Rauch aufgelöst haben (Tagesschau), weil die Investoren denken: Die OpenAI-Wette auf immer größere KI-Computer geht vielleicht nicht auf — das macht offensichtlich neugierig: Die Deepseek-App ist im Apple-Store zum Ende des Januars 2025 auf Platz 1.

Nerdanhang: DeepSeek systematisch testen!

Ich kann es nicht oft genug betonen, wie sehr bei generativer KI der Zufall eine Rolle spielt. Deshalb sollte man Dinge nicht nur einmal probieren, sondern zehnmal, hundertmal, bevor man eine endgültige Aussage über eine KI trifft.

Das habe ich diesmal nicht getan, aber wenigstens kann ich die Werkzeuge präsentieren, mit denen man es tun kann:

  • Basis ist die No-Code-Test-Oberfläche Chainforge, wie ich sie zuletzt zum Rollen-Prompt-Messen benutzt habe. Auf dem eigenen Rechner installieren, entweder direkt oder in einem Container.
  • Chainforge lässt sich einfach erweitern: Auf das Zahnrädchen für die Einstellungen klicken und das Tab „Custom Providers“ wählen.

"Chainforge Settings", Tab: "Custom Provider": "Drag a Python script for your custom model provider here".

  • Jetzt brauchen wir ein Erweiterungs-Skript, um DeepSeek einzubauen. Sebastian Mondial hat eine solche Erweiterung geschrieben. Die Datei deepseek-chainforge-provider.py herunterladen und per „Drag & Drop“ in Chainforge einbauen.
  • Einen API-Key von Deepseek braucht man natürlich auch noch – der muss bei den Modell-Parametern im Chainforge-Prompt-Node eingetragen werden. Man hat die Wahl zwischen dem herkömmlichen DeepSeek (Chat) und dem R1-Modell (Reasoning).
Kurzlink zu diesem Artikel: https://www.janeggers.tech/ywft

Neue Posts einfach per Mail zugeschickt bekommen? Dann hier eintragen; die Mails kannst du natürlich jederzeit wieder abbestellen.

Loading

Kommentare

2 Antworten zu „Der Aldi-Drache: Was ich an Deepseek R1 aus China großartig finde – und was nicht“

  1. Hallo Jan,

    super Beitrag, danke!!

    Oben ist Dir wohl eine Zwischenüberschrift in den Fliesstext gerutscht („Das Spatzenmassaker“).

    Viele Grüße
    Eric

    1. Halbsatz ist korrigiert. Das kann KI noch nicht: mitten im Satz einen anderen Gedanken und

      Danke für den Hinweis!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert