Eine clevere KI-Anwenderin hat entdeckt, wie sie KI für sich arbeiten lassen kann – und dabei ohne es zu wollen einen Weg gefunden, wie ChatGPT eine Börsenkatastrophe auslösen könnte. Eine Gruselgeschichte – the names have been changed to protect the guilty.
Beitragsbild: Midjourney, „An AI broker in front of a stock exchange display where the main index is going through the floor, cartoon style, broker is smiling, the index is a big red arrow pointing down through the lower border of the display.“
Dorothea beaufsichtigt die Investitionen einer Bank. Das heißt, sie verwaltet eine Menge Kreditposten und Investitionen bei verschiedensten Anbietern – einige zehntausend Posten hat die Liste. Einmal im Vierteljahr erstellt Dorothea eine Aufstellung, was sich geändert hat – welche Posten aus der Liste verschwunden, welche neu dazu gekommen ist. Das war bisher eine Menge Frickelarbeit mit Excel-Funktionen und Makro-Befehlen. No longer: jetzt setzt sie KI ein.
ChatGPT im Analyse-Modus – wie die KI Excel bezwingt
Dorothea hat sich einen GPTs-Agenten eingerichtet – über die haben wir im Zusammenhang mit der RAG-Technik ja schon mal gesprochen: Bezahlkunden haben bei ChatGPT die Möglichkeit, KI-Assistenten mit voreingestellten Prompts und Zusatzfähigkeiten einzurichten. Dorothea hat sich einen gebastelt, der den ChatGPT-Analyse-Modus nutzt, um die Tabellen zu verarbeiten.
Was Dorothea tut: Sie lädt die alte und die neue Tabelle in ihren Assistenten. Was die KI tut: Die schaut sich erst mal das Format der Dateien an – es sind so genannte CSV-Dateien, ein einfaches Textformat für Tabellendaten – und schreibt sich dann ein Python-Programm, das die CSV-Dateien lädt, abgleicht, und je eine Datei für die gelöschten und neuen Positionen ausgibt. Das Ganze nennt OpenAI den „Analysemodus“ von ChatGPT (hier die OpenAI-Doku dazu)- er nutzt, dass ein Sprachmodell zwar nicht besonders gut rechnen kann, aber Programme schreiben, die ihm das Rechnen abnehmen.
Eine KI, die sich einen Computer programmiert, damit er ihr Arbeit abnimmt – klingt wie eine Geschichte von Stanislaw Lem, ist aber tatsächlich das, was der Analysemodus macht. Auch bei Dorothea. Die Anweisungen dazu hat der KI-Assistent in einem Prompt bekommen, das im Assistenten hinterlegt ist. „Das war einiges an Trial und Error“, erzählt sie.
Eigentlich könnte ChatGPT ja auch helfen, schneller zu den entsprechenden Formeln in der Excel-Tabelle zu kommen. Excel-Formeln zu erstellen ist ja auch nicht grundsätzlich anders als ein Python-Programm schreiben. Leider hat die KI dafür offensichtlich zu wenig Trainingsdaten, und dafür ist eine merkwürdige Entscheidung von Microsoft vor 30 Jahren mitverantwortlich: Der Software-Riese entschied sich damals, seine Tabellenkalkulation für jede Sprache komplett zu übersetzen – also nicht nur Menüs und Infoboxen, sondern auch die Befehle. Weshalb man mit den Funktionen, die ChatGPT für ein englisches Excel-Spreadsheet entwirft, leider überhaupt nichts anfangen kann. Deutsche Befehle kennt die KI so gut wie nicht.
Jedenfalls: im Analyse-Modus klappt’s wunderbar. Anstatt stundenlang mit Excel rumzufrickeln, muss Dorothea nur noch ihren GPTs aufrufen, die beiden Dateien hochladen, und zack, hat sie die Ergebnisse für ihren Report.
Aber: Prompten ist nicht programmieren!
Das Problem damit sind ein paar Basis-Eigenschaften generativer KI, die wir nur allzu oft aus dem Blick verlieren:
- Die KI hat kein Gedächtnis für Prompts und lernt aus ihnen nichts dazu. Das heißt: Jedes Mal, wenn Dorothea ihren Analyse-Assistenten aufruft, beginnt er wieder von vorn, die Aufgabe zu lösen.
- Das wird die KI jedes Mal ein klein wenig anders tun – daran ändert auch ein noch so gutes Prompt nichts. Generative KI ist nicht deterministisch – anders gesagt: Der Zufall spielt eine Riesenrolle. (Wer das an einem Beispiel gezeigt bekommen möchte: hier entlang!)
Das aber bedeutet: Jedes Mal, wenn Dorothea ihren KI-Agenten einsetzt, würfelt sie mit dem Teufel. Denn natürlich kann ein dummer Zufall dazu führen, dass der KI-Assistent ein Programm schreibt, das einen Fehler enthält. Ausgeschlossen ist das nicht – anders als bei einem Computerprogramm, das nach bestimmten Regeln aus gleichen Daten immer wieder dieselben Ergebnisse erstellt.
Würfeln mit dem Teufel: Wie oft patzt die KI?
Das ist kein theoretisches Risiko. Ein Experiment beweist es: Ich habe ein kleines Programm geschrieben, das sich von GPT-4o immer wieder Python-Code erzeugen lässt, um zwei CSV-Dateien zu vergleichen. Dann führt es den von der KI erzeugten Programmcode aus und vergleicht die Ergebnisse. Wenn die von dem abweichen, was mir ein handgeschriebenes Programm aus den Beispiel-Dateien erstellt, wird das vermerkt, ebenso, wenn das Programm mit einem Fehler abstürzt. Und das habe ich dann 100x laufen lassen. (Den Code und die Beispiel-Dateien findet ihr in diesem Github-Repository.)
Die Ergebnisse:
- 83mal lief der Versuch ohne Fehler durch.
- 8mal verursachte das Programm, das die KI geschrieben hat, einen Fehler.
- 9mal wich das Ergebnis von einer Musterdatei ab, die ich mit einem von Hand erstellten Programm erstellt habe.
Der Versuch ist aus vielerlei Gründen nicht fair: Der Analysemodus arbeitet in der Regel mit einem Python-Programmpaket, das mir die KI bei direkten Anfragen nie geliefert hat. Dorothea hatte auch wesentlich besser gepromptet, und: die meisten Abweichungen sind wahrscheinlich harmlos – so in der Art: in einer Datenzelle steht 1,0 statt 1. Aber ich habe bei meinen Experimenten auch einmal Ergebnis-Dateien gesehen, bei denen neue und alte Daten einfach vertauscht waren.
Das werden wir bei der Arbeit mit generativer KI nicht los: Fehler passieren. Sie passieren selten, aber irgendwann passieren sie. Gerade durfte ich für eine Fortbildungseinrichtung einen Chatbot testen, der als Seminarberater dienen soll – und bekam in einem der ersten Testläufe von der KI falsche Kontaktdaten. Und das, obwohl der Chatbot doch eigentlich aus Unterlagen mit den richtigen Kontaktdaten zitierte! Shit happens, und irgendwann wird die Sache auf eine Weise schief gehen, die nicht sofort auffällt.
…und wenn wir uns dann doch drauf verlassen?
Das ist deshalb beunruhigend, weil KI ja verspricht, uns von vielen lästigen Routine-Aufgaben zu befreien – Anträge stellen, Gegenstände in Listen eintragen, Formulare ausfüllen, Ausgaben zusammenrechnen. All diese Vorgänge, bei denen Menschen von der Bürokratie dazu missbraucht werden, unstrukturierte Daten in strukturierte umzuwandeln, mit denen dann wiederum Computerprogramme arbeiten können.
Natürlich können uns Sprachmodelle dabei enorm nützlich sein und unsere Rolle als Daten-Zulieferer übernehmen. Aber man kann sich einfach nie hundertprozentig auf sie verlassen – dafür spielt der Zufall eine zu große Rolle. Das ist vielleicht nicht so schlimm, wenn es um eine Reiseabrechnung geht. Aber wer sich bei kritischen Abläufen darauf verlässt, dass die KI ja schon meistens alles richtig macht, wird böse Überraschungen erleben. Um so mehr, wenn man sich gar nicht bewusst ist, dass man jedesmal neu mit dem Teufel würfelt.
Zurück zu Dorothea. Sie hat, als ihr das Problem bewusst wurde, sofort auf eine andere Lösung umgeschaltet: ein einmal erstelltes und getestetes Werkzeug, ein Schnipsel Microsoft-Skript-Code. Mit KI-Hilfe erstellt, aber ist in Ruhe geprüft und macht jedes Mal dasselbe. Der Zufall ist aus dem Prozess genommen, der Teufel würfelt nicht mehr mit.
Auch lesenswert:
- Besser prompten: Gib der KI gut strukturierte ROMANE!
- KI-Daily-Soap zum Mitmachen: Wie „Evertrail“ sich seine eigene Geschichte schreibt
- Anwendungsfall für Custom-GPTs: Die RKI-Protokolle mit KI-Hilfe durchsuchbar machen
Schreibe einen Kommentar