Chain of Thought Prompting – Ein Weg in die Gedankenwelt der KI-Sprachmodelle?

By Moritz Larsen and others

09/20/2022 - 09:30

Wie funktionieren generative KI-Sprachmodelle, welche Chancen bieten sie und welche Risiken sind zu beachten? Eine Einschätzung von Moritz Larsen, Melanie Lucht und Prof. Dr. Doris Weßels.

Generative Sprachmodelle wie z. B. GPT-3 von OpenAI können immer wieder überraschende Ergebnisse liefern. Ein generelles Problem dabei ist jedoch die fehlende Überprüf- und Erklärbarkeit der Systeme, dies ist unter dem Begriff der „Black Box”-Problematik bekannt. In diesem Artikel beleuchten wir das sogenannte „Chain of Thought”-Prompting, abgekürzt CoT-Prompting. Denn durch das CoT-Prompting finden wir vermeintlich den Weg in die Gedankenwelt der KI, indem sie uns ihre gedanklichen Schritte zur Lösung einer Aufgabe der Reihe nach offenbart.

Doch was sind überhaupt generative KI-Sprachmodelle und wie funktionieren sie? Kurz und vereinfacht dargestellt, sind KI-Sprachmodelle neuronale Netze, die mit Verfahren des Deep Learnings auf enorm großen Textdaten trainiert wurden. Im Laufe des Trainings lernen die Modelle die statistischen Abhängigkeiten der Wörter und Wortteile in den Trainingstexten. Nach Abschluss des Trainings sind die Modelle in der Lage, mittels Wahrscheinlichkeitsrechnung auf Basis eines Input-Textes einen Output-Text zu generieren. Der Input-Text wird Prompt genannt, der generierte Output-Text Completion. Dieses Schema ist in Abbildung 1 dargestellt.

Schematische Darstellung der Vorgehensweise beim Generieren von Output-Texten mit einem generativen Sprachmodell (basierend auf Cohere AI)

Abbildung 1: Schematische Darstellung der Vorgehensweise beim Generieren von Output-Texten mit einem generativen Sprachmodell (basierend auf Cohere AI).

Das faszinierende an diesen Modellen ist, dass sie Texte generieren können, die kaum noch von von Menschen geschriebenen Texten zu unterscheiden sind. Ihre Anwendungsmöglichkeiten sind verheißungsvoll. Sie sollen u. a. Blogartikel schreiben, Ideen brainstormen, Gedichte verfassen, Zusammenfassungen erstellen oder Sätze paraphrasieren. Doch wie bringt man ein Sprachmodell überhaupt dazu, diese Dinge zu tun? Das Schlüsselwort lautet Prompting. Ein Prompt (dt.: Aufforderung, Vorgabe) leitet das Sprachmodell an und gibt vor, was der Output enthalten soll. Für das Vorgehen beim Erstellen von passenden Prompts haben sich die Begriffe Prompt-Design und Prompt-Engineering etabliert. Den optimalen Prompt zu finden, so dass das Sprachmodell die vorgegebene Aufgabenstellung bestmöglich löst, ist das Ziel des Prompt-Designs bzw. Prompt-Engineerings (Liu et al. 2021). Das oben angesprochene CoT-Prompting ist nun eine bestimmte Art des Promptings, bei dem das Sprachmodell angeregt werden soll, ein schrittweises Vorgehen zur Lösung einer Aufgabe im Output-Text darzustellen. Auf diese Weise wird eine vermeintliche Gedankenkette für uns sichtbar. Neben diesem Transparenzgewinn konnten Google-Forscher:innen auf Basis ihrer Experimente mit unterschiedlichen Sprachmodellen sogar belegen, dass durch das CoT-Prompting die Ergebnisqualität ab einer bestimmten Modellgröße verbessert wird (Wei/Zhou 2022).

„Generiere fünf Namen für eine Katze mit leicht rötlichem und getigertem Fell“

Abbildung 2: Bild einer Katze mit einem Fragezeichen im Hintergrund. Generiert mit dem KI-Tool DALL·E 2 (OpenAI).

Diesen Effekt des CoT-Promptings möchten wir an einem fiktiven, aber anschaulichen Beispiel verdeutlichen: Stellen wir uns vor, wir möchten uns eine Katze zulegen. Die Katze, die wir ins Auge gefasst haben, hat ein leicht rötliches und getigertes Fell. Leider fällt uns kein passender Name für die Katze ein und „Tiger“ ist uns zu einfallslos. Wir beschließen also, ein KI-Sprachmodell für diese Aufgabe zu nutzen. Dazu benötigen wir einen Prompt, der das Sprachmodell anregt, Namen für Katzen mit einem leicht rötlichen, getigerten Fell zu generieren. Da Prompts in natürlicher Sprache formuliert werden, handelt es sich um eine niedrigschwellige Möglichkeit, mit dem Sprachmodell zu interagieren. Es ist nicht notwendig, dafür eine Programmiersprache zu beherrschen. Das heißt, wir können einfach drauf los schreiben und z. B. diese Anweisung in unserem Input-Text geben: „Generiere fünf Namen für eine Katze mit leicht rötlichem und getigertem Fell.“

Für dieses Beispiel haben wir exemplarisch den OpenAI Playground verwendet. Bei dem Playground handelt es sich um eine grafische Oberfläche zur Interaktion mit dem Sprachmodell GPT-3. Es sollte im Hinterkopf behalten werden, dass die Output-Texte zufallsgesteuert generiert werden und es sich dabei um Unikate handelt, die nicht reproduzierbar sind. Zudem sind die Beispiele „cherry-picked“. Dies bedeutet, dass wir uns aus einer Reihe von generierten Output-Texten jeweils die Besten ausgesucht haben. Dies hat in erster Linie einen didaktischen Nutzen zur Veranschaulichung des CoT-Promptings. Die folgenden Abbildungen zeigen Screenshots des Textfeldes im Playground. Der grün hinterlegte Text wurde durch GPT-3 generiert, der restliche Text ist unsere Eingabe.

Nun zu unserem ersten Prompt: Wir beschreiben kurz unser Anliegen und geben an, welche Farbe und welches Muster das Fell der Katze hat. Abschließend formulieren wir eine Aufforderung.

Abbildung 3: Prompt und Output-Text (grün) ohne Begründung.

Der generierte Output-Text ist schonmal ein guter Anfang. Wir bekommen eine Liste mit fünf möglichen Namen für unsere neue Katze. Ganz zufrieden sind wir aber noch nicht, da die Namen nur teilweise einen Bezug zum Fell der Katze haben. Und nur die Namen zu bekommen, reicht uns auch nicht. Wir möchten ebenso Begründungen für die Auswahl der Namen erhalten. Wir fügen unserem Prompt also eine weitere Formulierung hinzu, die dazu führen soll, dass eine Begründung für jeden einzelnen Namen generiert wird. Für unser Beispiel formulieren wir: „Begründe, warum du diese Namen ausgewählt hast.“

Abbildung 4: Prompt und Output-Text (grün) mit Begründung.

Diese kleine Ergänzung gibt uns nun andere Namen, die in den meisten Fällen einen Bezug zur Fellfarbe der Katze haben. Das Sprachmodell scheint dies erkannt zu haben und bezieht sich in den Begründungen darauf. Abgesehen davon, ob uns die Namen gefallen oder nicht, ist der Output-Text bzw. die Auswahl der Namen nachvollziehbarer geworden. Unsere Veränderung am Prompt hat also seine Wirkung gezeigt. Für das CoT-Prompting ist uns dies jedoch noch nicht genug. Wir möchten gerne, dass der Output-Text ein schrittweises Vorgehen darstellt, uns also sichtbar gemacht wird, welche vermeintlichen „gedanklichen“ Schritte vollzogen werden, um zur Auswahl der Katzennamen zu kommen. Wir müssen den Prompt daher um eine weitere Formulierung ergänzen. Diese Formulierung muss in irgendeiner Weise ein schrittweises Vorgehen anregen. Wir entscheiden uns für die Formulierung: „Überlegen wir schrittweise, um geeignete Namen vorzuschlagen:“

Abbildung 5: Prompt und Output-Text (grün) mit schrittweiser Begründung.

Der Output-Text lässt sich grob in zwei Abschnitte unterteilen. Der erste Abschnitt zeigt eine Analyse unseres ursprünglichen Prompts. Das Sprachmodell schreibt dort selbst, dass dies die „Überlegungen“ seien, auf deren Grundlage die dann folgenden Namen ausgewählt werden. Erst im zweiten Abschnitt werden dann mögliche Namen genannt und jeweils eine Begründung mit angegeben. Hierbei fällt allerdings auf, dass die Begründungen sich wiederholen. Wir sehen also, dass unser CoT-Prompt dazu geführt hat, dass das Sprachmodell „Überlegungen“ anstellt und schrittweise die Grundlagen für die Namenswahl darstellt.

Fazit

Dieses einfache Beispiel zeigt, dass bereits erste Schritte in Richtung Erklärbarkeit durch ein intelligentes „Prompt-Design“ beschritten werden können. Die Erklärbarkeit ist allerdings nur auf den Output-Text und die formalen Lösungsschritte bezogen, nicht auf die nach wie vor als „Black Box“ geltende innere Struktur des zugrunde liegenden künstlichen neuronalen Netzes (KNN) als Ergebnis des Deep Learnings. Zu betonen ist daher, dass die durch das CoT-Prompting erzeugte Kette der (vermeintlichen) Gedanken einer KI nicht als der tatsächliche Einblick in die „Logik“ des KI-Modells fehlinterpretiert werden darf. Wir können dem Sprachmodell ebenso kein eigenständiges Denken oder Verstehen zuschreiben, auch wenn es oberflächlich so erscheinen mag. Den Weg dahin, uns die vermeintliche Gedankenkette darstellen zu lassen, bestimmen wir über intelligent und kreativ designte Prompts.

Zu wissen, welche Art des Promptings zum gewünschten Ergebnis führt, ist im Umgang mit KI-Sprachmodellen von entscheidender Bedeutung für einen gewinnbringenden Einsatz und entwickelt sich zu einer neuen Fachdisziplin mit entsprechenden Berufsbildern bzw. Jobprofilen. Das Potenzial für den Bildungsbereich und die Lehre und das Lernen in der Zukunft ist offensichtlich. Neben diesen neuen Chancen für den Bildungsbereich müssen insbesondere auch die Risiken berücksichtigt werden. Hierzu gehört die mögliche Gefahr einer zunehmenden Vermenschlichung, bei der wir einem KI-Sprachmodell, das kein semantisches Sprachverständnis hat, (immer häufiger) menschliche Fähigkeiten und Denkweisen unterstellen (Larsen/Weßels 2022). Mit Blick in die Zukunft der KI-Entwicklung zeigt sich, dass die Förderung der Digital- und Medienkompetenz für unsere Gesellschaft kontinuierlich an Bedeutung gewinnt.

Literatur

Cohere AI: Intro to Large Language Models with Cohere. https://docs.cohere.ai/intro-to-llms

Larsen, M., & Weßels, D. (2022): Chain of Thought Prompting - KI-Transfer Hub SH. https://kuenstliche-intelligenz.sh/de/chain-of-thought-prompting

Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H., & Neubig, G. (2021): Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing.

OpenAI: GPT-3. https://openai.com/

OpenAI: DALL-E 2. https://openai.com/dall-e-2/

Wei, J., Zhou, D. (2022): Language Models Perform Reasoning via Chain of Thought: Google AI Blog. https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html

Moritz Larsen

Fachhochschule Kiel

Moritz Larsen ist Masterstudierender der Christian-Albrechts-Universität Kiel für Pädagogik, Sprache und Variation, zudem Projektmitarbeiter im KI-Projekt „Das akademische Schreiben von Studierenden im Zeitalter KI" des Forschungs- und Entwicklungszentrums der Fachhochschule Kiel.

Melanie Lucht

Fachhochschule Kiel

Melanie Lucht ist Medieninformatikerin (M.Sc.), Projektmitarbeiterin im KI-Projekt „Das akademische Schreiben von Studierenden im Zeitalter KI" des Forschungs- und Entwicklungszentrums der Fachhochschule Kiel und Mitglied im KI-ExpertLab Hochschullehre.

Prof. Dr. Doris Weßels

Fachhochschule Kiel

Prof. Dr. Doris Weßels ist Professorin für Wirtschaftsinformatik mit den Schwerpunkten Projektmanagement und Natural Language Processing an der Fachhochschule Kiel. Nach einem Studium der Mathematik, Betriebswirtschaftslehre und Informatik an der WWU in Münster promovierte sie am Institut für Finanzwirtschaft und Investition der Universität Oldenburg. Seit 2021 ist sie Mitglied im KI-ExpertLab Hochschullehre des BMBF-geförderten Pilotprojektes KI-Campus und hat dort die Themengruppe „KI und Academic Writing“ initiiert.