"A journalist who is also a bad programmer, stylized in the style of Gary Larson"
Chupacabra-GIF: Moschustier-artiges Wesen mit einzelnem Horn auf der Stirn im Unterholz, anscheinend von einer Überwachungskamera aufgenommen

¡El Chupacabra! Oder: Wie man mit KI eine „Paper Mill“ antreiben könnte

Denke wie ein Fälscher! Das ist eine wichtige Übung für Faktenchecker, um Fälschungen auf die Spur zu kommen. Die Kolleginnen von „alles wissen“ im hr-Fernsehen wollten wissen: Erleichtert KI auch gewerbsmäßigen Wissenschafts-Fälschern das Geschäft? Die Antwort wird dich… auf keinen Fall erstaunen.

Ehe ich erzähle, wie wir bei unserem kleinen „Denke wie ein Wissenschafts-Fälscher“ vorgegangen sind, ein Wort über unseriöse Wissenschafts-Journale: Die so genannten „Paper Mills“ sind ein gutes Geschäft – weil sie eine Lösung für angehende Wissenschaftler anbieten, die die nackte Verzweiflung antreibt.

Klar: Um sich einen Namen zu machen, muss man veröffentlichen. Natürlich am besten in den großen, namhaften Publikationen – aber im Zweifelsfall vielleicht auch bei einem Journal, das nicht ganz so genau hinschaut und dafür vielleicht Geld verlangt. Und vielleicht mit nicht ganz so sorgfältig geprüftem Inhalt. Und so ein Fake-Journal wiederum hat natürlich ein Interesse, die schmale Artikelbasis aufzuplustern – mit möglichst wenig Aufwand.

Jedenfalls sind Fake-Publikationen offenbar ziemlich verbreitet. Der Psychologe Bernd Sabel, der auch im Film vorkommt, hat sich eine Methode ausgedacht, mit der sich fake-verdächtige Artikel ausfiltern lassen – und fand, dass von 5.000 untersuchten biomedizinischen Studien ein Viertel verdächtige Merkmale aufwies.

Und KI macht auch hier alles viel, viel einfacher.

Ein Fabeltier für die Wissenschaft

Unser Experiment fängt mit einer Überlegung an: Was könnte man glaubhaft fälschen – ohne wirklich zur Menge an Unsinn auf der Welt beizutragen? Wir kommen auf das Chupacabra, das angeblich weitgehend unentdeckt durch Südamerika streifen und Ziegen anfallen soll. Kryptozoologie hat den Vorteil, dass man sich an existierenden zoologischen Studien orientieren kann – ich finde durch zufälliges Herumgooglen unter anderem ein Preprint über die Schlafgewohnheiten afrikanischer Huftiere in Zoos und eine Luchs-Studie aus dem Bayerischen Wald.

Beide haben den Vorteil, dass sie als Vorbild für einen Ansatz dienen können, den eine andere Fäschungs-Forscher-Gruppe schon ausprobiert hat: KI Daten erfinden lassen. Ethische Bedenken bremsen den Textgenerator nicht: Wenn ich die Rolle vorgebe, sie sei ein Ingenieur, der synthetische Daten für einen Test erfinden soll – mit genauer Beschreibung der Anzahl der Kameras und der erwünschten Verteilung – generiert sie mir ein Markdown-Dokument mit tabellarischen Sichtungs-Daten. Zuerst nutze ich Mixtral, das lokal auf meinem Mac läuft; das wiederholt sich allerdings ziemlich schnell und beginnt, ein erkennbares Muster in den Daten zu produzieren. Ich wechsele zu GPT-4: Das schreibt mir sogar ein kleines Python-Programm, das die gewünschten Daten nach der Vorgabe generiert – mit einer statistisch untadeligen Zufallsverteilung.

Von den Daten zur Studie

Damit habe ich eigentlich alles, was ich brauche, um eine Studie zu generieren, mit den üblichen Prompting-Tricks. Rolle: Du bist ein Wissenschaftler, der auf Basis von Daten arbeitet. Oberstes Ziel: Abstract und Struktur einer wissenschaftlichen Studie. Anwendungsbeispiele: Daten aus der Huftier- und Luchs-Studie – und die jeweiligen Studien in Teilen als Vorbild. Und dann legt das Sprachmodell los – und formuliert im Handumdrehen einen Text, der schon sehr wissenschaftlich aussieht.

Zugegeben: Bis jetzt haben wir nur einen Abstract und Kapitelüberschriften. Ein Einführungs- und Methodik-Kapitel sind schnell generiert, auch eine Zusammenfassung. Auch die restlichen Kapitel ausfüllen zu lassen, sollte keine keine Kunst sein – zumal wir uns darauf verlassen dürfen, dass die meisten Leser ohnehin allenfalls Einleitung, Schlussfolgerungen und den Methodikteil überfliegen.

Die Studie behauptet, dass wir mit strategisch platzierten Fotofallen Bilder von Chupacabras in einer Andenregion gewinnen konnten. Die Daten zeigen die Auswertung dieser Fotofallen – und die Rückschlüsse, die sie auf die Ernährungsgewohnheiten von Chupacabras zulassen: Die von mir synthetisierten Fabeltiere sind zwar prinzipiell Einzelgänger, jagen aber mitunter auch zu zweit – und ernähren sich mit einer sehr vielfältigen Diät aus Schlangen, Vögeln und Kleinsäugern.

Etwas Verpackung

Der Rest ist Dressing. Als nächstes erfindet mir die KI Kamera-Standorte, die ich in eine Datawrapper-Karte einbaue – wie ich es auch mit realen Daten täte. Ein aus dem Netz geklautes Überwachungskamera-Standbild dient als stilistisches Vorbild für Midjourney, das mir auch schnell ein paar schöne Chupacabras erfindet.

Midjourney-Screenshot: Oben echtes Überwachungskamera-Foto, unten auf dieser Basis generierte Bilder: Midjourney Bot BOT — 02.02.2024 11:41 chupacabra with horns in the Andean jungle, eating a small rodent, at night --sref https://s.mj.run/E58QGzMguBA --s 0 --style raw --v 6.0 --ar 16:9 - @JanEggers (fast)

Ich suche mir eins aus und schiebe es in eine Stable Video Diffusion-Demo, die ich auf Huggingface finde: Sie wandelt mir das KI-Standbild in eine kurze Videosequenz um. Selbst für den Vortrag gäbe es also Material. Und der PDF-Entwurf des Papers ist schnell mit TexShop gesetzt – weil ich mit der Formatbeschreibungs-Sprache TeX nicht wirklich Erfahrung habe, lasse ich mir von einer spezialisierten KI im GPTs-Shop helfen.

Hat gerade einen Vormittag gedauert. Und ich hatte nicht mal Übung.

Den ganzen Film gibt’s in der ARD-Mediathek:

Kurzlink zu diesem Artikel: https://www.janeggers.tech/6e94

Neue Posts einfach per Mail zugeschickt bekommen? Dann hier eintragen; die Mails kannst du natürlich jederzeit wieder abbestellen.

Loading

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert