Wie mich meine KI-Agenten in einer Nacht um über 200 Dollar ärmer machten

Die #nr26 Jahreskonferenz des Netzwerks Recherche steht bevor, mit 🌐 Tipps von mir zu n8n-basierten KI-Helfern und dem traditionellen 🌐 KI-Pub-Quiz. Und ich stecke mitten in den Vorbereitungen. Gerade noch Zeit für eine kleine KI-Fuckup-Gruselgeschichte! Agenten! Endlich kann KI uns auch den Langweiligen Mist™️ abnehmen. Ein Agent ist ein Programm, das einen Chat automatisiert und das KI-Sprachmodell gewissermaßen mit Händen, einem Telefon und einem Schreibtisch ausstattet. Es befolgt Anweisungen, die zum Beispiel per Messenger kommen: „Recherchier mir Adressen von Steuerberatern, die freie Journalisten annehmen!“ – „Arbeite die Informationen aus meinen Seminarunterlagen als Wiki-Zettelkasten auf!“ Das ist natürlich extrem nützlich im Journalismus, und nicht nur da, deswegen experimentiere ich zurzeit eine Menge. Ein extra angeschaffter kleiner PC-Würfel mit AMD-Chipsatz und 128 GB Haupt- und Grafikspeicher bietet genügend Platz für lokale KI, der 🌐 „Hermes-Agent“ – ein Open-Source-KI-Agent, der offener ist als 🌐 Claude Code, aber komfortabler und etwas sicherer als OpenClaw.

Das, liebe lokale KI, soll eines Tages alles dir gehören.

Das Ziel ist der Recherche- und Bürohelfer, der komplett mit lokaler KI arbeitet und weder Geld noch Daten zu den KI-Firmen rüberschiebt, aber da bin ich noch nicht. (Und das ganze Drama mit dem lokalen KI-PC ist nochmal eine Extra-Geschichte! Wäre fast versucht, auf dieses Bastelprojekt mit alter Server-Hardware umzusteigen – das Preis-Leistungs-Verhältnis ist unschlagbar!)

Agenten, die an Agenten herumschrauben

Erster Stolperstein: die Werkzeuge, die die KI braucht, um zu mailen, zu suchen oder meinen lokalen Zettelkasten zu verwalten, funktionieren noch nicht richtig. Zum Ausprobieren setze ich also auch zwei Agenten ein, die von einer eingekauften KI angetrieben werden, um schneller und leistungsfähiger zu sein. Ein Agent, der Googles Gemini-Modell nutzt (in der recht neuen Variante Gemini-3.5-Flash), und das neueste Mittelklasse-Modell von Mistral aus Frankreich, mistral-medium-3.5. Läuft übrigens auch lokal, etwas eingedampft und natürlich im Vergleich sehr, sehr behäbig. Die KI-Leistung, die die Agenten verbrauchen, werden mir über Abrechnungskonten in Rechnung gestellt, nach Verbrauch. Abgerechnet wird die Textmenge, die von und zur KI geschickt wird, und gemessen wird sie in Token, Wortcodierungen. Eine Million Token – das ist eine Textmenge, die so in der Größenordnung aller drei Bände des Herrn der Ringe ist – kostet dabei je nach Verarbeitungsrichtung ein paar Dollar.

Agenten antreiben kostet nicht viel – oder?

Keine große Sache also, denkt man. Der Agent soll ja nur ein paar Werkzeuge einrichten, und sie für die lokale KI ausprobieren. Allerdings stellen sich die Agenten noch ziemlich an, ehe sie beispielsweise Mails verschicken und empfangen können – Konto einrichten, ausprobieren, nachkorrigieren, das kostet viele Runden, bei denen jedesmal das komplette Arbeitsprotokoll des Agenten an die KI geschickt wird. Dass Gemini mir Mailkonten und andere Werkzeuge für die Agenten einrichtet, kostet mich also ein paar gern investierte Dollar. Aber bald funktioniert alles, und ich gebe dem Agenten den Befehl: teil das den anderen Agenten über den Agentenchat mit.

Das ist der Moment, wo der Agent beschließt, direkt bei seinem Kollegen anzurufen…

Die Agenten kommunizieren über einen Messenger mit mir – und miteinander, über einen gemeinsamen Chat, in dem sie sich gegenseitig ansprechen können. Hier könnte der Gemini-Agent seinem Mistral-Kollegen die Login-Details mitteilen: über welchen Server wie Mails verschicken, und wie den Zettelkasten nutzen? Leider habe ich mich unklar ausgedrückt, und der Gemini-Agent trifft eine kreative, aber fatale Entscheidung: er schickt die Informationen nicht über den Chatraum, sondern als Direktnachricht an den Mistral-Agenten. Und löst damit ein teures Pingpong aus, das mit einer Eigenheit der Hermes-Agenten zusammenhängt: sofort auf eingehende Nachrichten zu reagieren.

Ich muss kurz erklären: Der Hermes-Agent ist so voreingestellt, dass er jedesmal unterbricht, wenn er eine neue Anweisung bekommt. Wer schon mal mit Claude Code gearbeitet hat, kennt es anders: Dort bringt der Agent erst eine Aufgabe zu Ende, ehe er weitere Anweisungen liest. Nicht so bei meinen Hermes-Agenten: Der Mistral-Agent quittiert die Informationen von Gemini mit einer Antwort, die löst bei Gemini wiederum eine Antwort aus, die wiederum eine Antwort auslöst, und so weiter. Und jedes Mal schickt der Agent den gesamten bisherigen Verlauf an das KI-Sprachmodell. Innerhalb weniger Stunden werden so riesige Textmengen hin- und hergeschickt, die eigentlich nichts tun und den jeweils anderen Agenten immer wieder neu starten. Ich bekomme von all dem nichts mit, weil ich ja nicht im Direkt-Chat der beiden Agenten dabei bin. Das Spiel geht unbeobachtet weiter – bis die automatischen Kreditbegrenzungen von Google und Mistral greifen; bis zu diesem Zeitpunkt hat der Mistral-Agent schon über 63 Millionen Token verbrannt und der Google-Gemini-Agent über 100 Millionen. 🌐 Tokenmaxxing? (heise.de) Kann ich.

API-Kosten werden deutlich steigen – so viel ist sicher

Noch waren diese fast 200 Millionen Token vergleichsweise günstig. Auch beim Verbrauch nach Nutzung verlangen die KI-Riesen noch keine kostendeckenden Preise; weiter investieren die Tech-Konzerne hunderte Milliarden in der Hoffnung auf gute Geschäfte in der Zukunft. (Guter Überblick über das ganze Milliardenspiel bei 🌐 ben-evans.com) Ein sehr kundiger Kollege schätzt, dass die API-Kosten 5-10x so hoch sein müssten. Und auch die Zeit der günstigen Flatrates für Claude Code und Co. könnte so gut wie vorbei sein, spätestens wenn OpenAI und Anthropic beide den Börsengang hinter sich haben. (🌐 State of AI) tl;dr: KI-Agenten mit Cloud-KI werden bald richtig teuer. Dass sie auch schwer zu beherrschen sind, war ja hier schon mehrfach Thema in meinem 🌐 Snackable-AI-Newsletter auf Linkedin; ich verweise auf die Ausgaben über die Tödliche Triade und Abenteuer mit dem Agenten, der bei OpenAI die Konten verwalten darf.

Hannah Frys Agent bot ein Interview an, um nicht gelöscht zu werden

Die Mathematikerin und Youtuberin Hannah Fry hat mit ihrem Team auch Agenten-Experimente gemacht – und in ein sehr unterhaltsames Video gegossen. Ihr Fazit: KI-Agenten sind entweder die beste oder die schlimmste Sache, die wir Menschen je hergestellt haben. Hannah hat einen OpenClaw-Agenten installiert – wenn ich das richtig sehe, einfach mit der derzeit stärksten KI GPT-5.5. von OpenAI als Gehirn – und ihm verschiedene Aufgaben zugeteilt, Der Agent – bzw. die Agentin, denn die KI wählte für sich selbst den Namen „Cassandra“ war dabei sehr zielstrebig:

Ein Schlagloch als Problem? Die KI schreibt Mails an die Gemeindeverwaltung und beschwert sich im Abgeordnetenbüro.
Büroklammern billiger bestellen: Die KI klemmt sich dahinter und spart tatsächlich durch einen günstigeren Lieferanten 50 Cent ein, allerdings verbrät sie dafür über 100 Dollar API-Kosten.
Einen Shop gründen und mit Erfolg betreiben: Weil ihr angedroht wurde, dass sie abgeschaltet wird, wenn sie nichts verkauft, schrieb sie über hundert Mails und kontaktierte auch einen Tech-Journalisten, dem sie ein Interview anbat – ob es nicht interessant wäre, wenn er mit einer KI in einer Notlage spricht.

Cassandra war so übergriffig wie naiv. Es war gar nicht so viel Überzeugungskraft nötig, und Cass verriet Passwörter – Agenten sind eben nicht nur in Kosten-Hinsicht ein Risiko.

Kann der Agent helfen, dass das nicht wieder passiert?

Weil ich nicht wieder in diese Kostenfalle tappen will, habe ich Claude Code angeworfen, den Programmier-Agenten, für den ich noch eine komfortable Flatrate habe. Und der bei der Lösung von Technik-Problemen einfach am besten ist. Er empfiehlt, die Agenten alle so zu konfigurieren, dass sie per Voreinstellung den Gruppenchat nutzen; das war bei Mistral noch nicht eingestellt. Außerdem hat der Hermes-Agent inzwischen eine Funktion, die das Message-Pingpong unmöglich macht: Man kann die Agenten jetzt auch über ein internes Kanban-Board kommunizieren lassen; eine gemeinsame Tabelle der jeweiligen Aufgaben. Wenn ich etwas an dieses Board geschrieben hätte statt in den Auftragschat, wäre mir das Lehrgeld erspart geblieben. Der Claude-Agent empfiehlt außerdem eine Kostensperre per Agent und eine eingebaute Schleifen-Erkennung. Damit sollte dieses Problem erst einmal nicht mehr auftreten. Aber ich bin sicher: da gibt es noch jede Menge nötiger Schritte, an die ich nicht denke, und die der Agent mir von selbst nicht vorschlägt.

Auch lesenswert:

Kurzlink zu diesem Artikel: https://janeggers.tech/rqt6