Das ist krass: Ein KI-Agent ruft bei einem Hotel an, um für den Auftraggeber ein Zimmer zu buchen. Ein zweiter KI-Agent antwortet — und als er sich ebenfalls als KI zu erkennen gibt, schalten die beiden auf eine R2D2-artige Geheimsprache um. Humans no longer needed.
Kein Wunder, dass die Clips viral gehen: KI, die selbständig Entscheidungen trifft. Maschinen, die beschließen, an den Menschen vorbei zu kommunizieren — weil menschliche Sprache ineffizient und langsam ist. Roboter, die die Sache unter sich ausmachen. Nächster Stopp: Ava, HAL, Skynet?
Beitragsbild: Flux, „Two terminator-like ai agents conversing via telephone with a human standing in between them, human is confused, ai agents are smiling maliciously“
Man googlet nach „Gibberlink“, der merkwürdigen Roboter-Sprache, die die beiden KIs miteinander gesprochen haben, und findet: das hier. Von unten:
- Der „Forbes“-Artikel erklärt, dass die eigenständige Entscheidung der KI jetzt bitte nicht dazu führen sollte, dass man KI-Innovation totreguliert, bei allen berechtigten Bedenken hinsichtlich Transparenz oder Eigenmächtigkeit der KI,
- Der IT-irgendwas-Artikel erklärt das gleiche, nur in Deutsch (sieht für mich nach einem schamlosen KI-Übersetzungs-generierten Plagiat aus),
- Der n-tv-Artikel nennt immerhin ein paar Details, raunt aber auch von „Geheimsprache“ und von der Beunruhigung, die das alles zurecht auslöse.
Und erst, wenn man den vierten Link klickt, der dann endlich zum Code des „Gibberlink“-Projekts führt, klärt sich auf: alles Blödsinn. Die KI hat überhaupt nichts eigenmächtig entschieden, und nein, KI-Bots haben nicht überraschend eine Geheimsprache entwickelt.
All das ist nicht weiter sensationell — und der Artikel auf der „Forbes“-Plattform stammt auch nicht von einer „Forbes“-Journalistin, sondern von einem „contributor“ — das sind externen Autoren, die ungeprüften Content liefern. Ich habe zunächst angenommen, die Autorin, eine Dr. Diane Dingsda, sei nur ein Label für KI-generierten Müll, aber es scheint die wirklich zu geben. Ich hoffe, dass sie den Kram nicht selber schreibt: Der Artikel jedenfalls ist ignoranter Schrott. Meine Meinung.
Was die beiden KIs da wirklich tun
Was wir hier sehen, kennen wir gut:
- KI-Systeme für Sprach-Eingabe und Sprach-Generierung in Echtzeit...
- …verknüpft mit einem Sprachmodell der GPT4o-mini-Klasse…
- …etwas Code drumherum, der die Ausgabe des Sprachmodells interpretiert und auf bestimmte Codewörter hin ein kleines Zusatzprogramm namens ggwave startet (das Text in Tonfolgen umsetzt und wieder zurück)
- …und einem Prompt, der sagt: Gib dich als KI-Agent zu erkennen, und wenn die Gegenseite das auch tut, nutze das ggwave-Werkzeug.
(Mehr zum Schlüssel-Begriff „Werkzeug“ gleich.)
Also: es droht erst mal keine Roboterapokalypse, auch durch „Gibberlink“ nicht. So, ist der Puls wieder unten? Dann können wir ja vielleicht in Ruhe ein wenig über die Technologie dahinter reden, und darüber, wohin sich KI gerade entwickelt.
Die „Agenten“ kommen — was das wirklich heißt
Eins aber stimmt an der „Gibberlink“-Panik dann doch: Tatsächlich sind KI-Systeme, die für uns Nutzer selbständig Aufgaben lösen sollen, gerade schwer im Kommen. Denn natürlich ist das ein Traum: Ich sage einfach: „Computer, such bitte für mich richtig gute Quellen für einen Artikel über Agenten, und dann schreib mir eine Zusammenfassung“, habe nach Sekunden eine brauchbare Grundlage, und kann mit meinen Kindern spielen gehen, statt arbeiten zu müssen.
Bisher gab es dabei ein Problem: KI-Sprachmodelle wie GPT-4 oder Mistral können diesen Wunsch zwar verstehen, aber nicht zuverlässig umsetzen, auch mit einem noch so guten Prompt nicht. Nicht, dass KI nicht für mich im Netz surfen könnte. Dass man KI-Sprachmodellen „Werkzeuge“ gibt, also Zusatzprogramme, die auf Schlüsselwörter hin beispielsweise eine Internet-Suchmaschine anwerfen und die Ergebnisse wieder ins Sprachmodell einspeisen, das gibt es schon relativ lange.
Das Problem ist eher, dass die Maschine sich nicht so genau an das hält, was wir ihr sagen. Prompten ist nicht programmieren; zu welchen möglicherweise katastrophalen Konsequenzen es führen kann, wenn man versucht, eine KI eine Aufgabe immer wieder zuverlässig lösen zu lassen, hatte ich hier aufgeschrieben.
Die Kunst liegt also darin, die Sprachmodelle in ein enges Gerüst einzuspannen, Dieses Gerüst muss einerseits verhindern, dass es schlimme Folgen hat, wenn die KI mal Unsinn generiert. Und es muss andererseits dafür sorgen, dass die KI die richtigen Werkzeuge nutzen kann, dass also Zusatzprogramme die Ausgaben der KI interpretieren, um Zusatzinformationen zu besorgen und wieder in das Sprachmodell einzuspeisen, damit es weiterarbeiten kann.
Und diese Kunst hat in den letzten Monaten enorme Fortschritte gemacht.
„Agentic AI“ — ein Modebegriff, aber nützlich
Gerade komme ich von einer Veranstaltung zurück, in der es um KI-Agenten im Journalismus ging. Da hat sich ein Bild abgezeichnet: KI-Agenten sind einfach nur der nächste Schritt in der Integration von KI-Sprachmodellen in existierende Workflows, wo man versucht, die Erfahrungen mit den Problemen beim Prompten technisch aufzunehmen und umzusetzen:
- Da ist zum Beispiel der Videotext-Agent, der aus einer Nachricht eine Meldung für den Videotext schreiben soll. Wenn man das nur promptet, bekommt man Texte, die oft entweder zu kurz oder zu lang sind und wichtige Informationen falsch wiedergeben oder weglassen. Wenn man die Ausgabe des Sprachmodells in ein Programm einspannt, das die Ergebnisse prüft und gegebenenfalls nochmal generieren lässt, kann man diese Aufgabe ganz gut automatisieren.
- Eine andere Anwendung: Ein Senderegie-Assistent, der auf Zuruf auf Datenbanken zugreift und über Schnitt- und Beleuchtungs-Systeme Aktionen auslöst, die der Regisseur in der Senderegie gerade braucht. Auf Zuruf.
Ja, Transparenz und Nachvollziehbarkeit sind ein Problem bei Agenten. Und das ist der eine Punkt, an dem die „Gibberlink“-Hysterie vielleicht ein Körnchen Wahrheit enthält: Es muss nachvollziehbar bleiben, auf Basis welcher Informationen das System welche Aktion ausgelöst hat. Schon deshalb ist es gut, messen zu können, wie gut ein Agent eine Aufgabe erledigt. Und: Werkzeuge kann ich dem Sprachmodell nur da geben, wo ich sie schon habe — wo Daten also strukturiert vorliegen und Tools offene, klar definierte API-Schnittstellen haben. Agenten werden also unsere Workflow-Probleme nicht lösen, sondern Digitalisierungs-Rückstände so schmerzhafter offenbaren.
Dass man einem Sprachmodell jetzt vielleicht nicht unbedingt die Kontrolle über etwas Lebenswichtiges anflanschen sollte, versteht sich von selbst. Man würde ja auch nicht ein Maschinengewehr an ein Hundespielzeug koppeln.
Auch lesenswert:
- Besser prompten: Gib der KI gut strukturierte ROMANE!
- Weshalb du als Mensch mit Gewissen und Verantwortungsgefühl keine KI verwenden solltest (zumindest nicht unkritisch)
- Liebe Kollegas, baut Chatbots!
Schreibe einen Kommentar