Was ist die grundsätzliche Funktionsweise von ChatGPT?
ChatGPT mag zunächst allwissend erscheinen – dabei verfügt es über kein Wissen im eigentlichen Sinne. Es kann vor allem sehr gut von Input auf Output schließen und sagt die Wörter voraus, die im gegebenen Kontext am wahrscheinlichsten sind – und zwar ohne ein grundsätzliches Verständnis der Inhalte.
Das Sprachmodell greift auf GPT (Generative Pre-Trained Transformer)-Algorithmen zurück und nutzt ein spezielles Fachverfahren namens Reinforcement Learning from Human Feedback (RLHF). Die Grundlagen des Modells gehen auf überwachtes Lernen (Engl.: Supervised Learning) zurück. Dabei nehmen menschliche Trainer:innen (Supervisor) sowohl die Rolle von Nutzer:in als auch die des KI-Assistenten ein und generieren so Trainingsdaten. Anschließend unterstützen sie dabei, Belohnungsmodelle (Reward Model) für das bestärkende Lernen (Reinforcement Learning) zu erstellen, indem sie die erzeugten Antworten bewerten. Darauf basierend lassen sich die Modelle optimieren und verfeinern.
Woher weiß ChatGPT, ob eine Antwort gut oder richtig ist?
Um zwischen guten und schlechten Antworten zu unterscheiden, wurde ein sogenanntes Reward Model trainiert. Auf diese Weise versucht man statistisch ein menschliches Feedback (Human Feedback) zu schätzen, also wie nützlich die Antwort für einen Menschen sein könnte.
Gibt es Hintergrundinformationen dazu, wie das Reward Model trainiert wurde?
Wie viel menschliche Daten sind als Input eingeflossen? Welche Menschen haben mitgewirkt? Und wie steht es um das Thema Diversität?
Spannende Informationen zum allgemeinen Training von Sprachmodellen finden sich im Paper: Training language models to follow instructions with human feedback (ChatGPT ist eine Art Klon von InstructGPT, daher passt das Paper sehr gut). Es geht auf die Arbeit mit Human Feedback ein und gibt außerdem Hinweise darauf, wie Nutzer:innen für das Training ausgewählt werden. Das Training von ChatGPT unterliegt naturbedingt Input aus verschiedenen Kulturkreisen und Gesellschafts- beziehungsweise Lebensmodellen.
Wieso endet das „Wissen“ von ChatGPT im Jahre 2021?
ChatGPT wurde nur mit Daten bis zum Jahre 2021 trainiert und kann entsprechend nicht Auskunft zu späteren Ereignissen liefern. Eine offizielle Aussage seitens OpenAI, weshalb bisher keine aktuelleren Daten zum Einsatz kamen, gibt es nicht. Mutmaßlich wollte das Unternehmen noch keinen Prozess dazu definieren, wie ständig neue Daten für das Model Training bereitzustellen sind – das wäre sowohl organisatorisch als auch zeitlich mit einem hohen Aufwand verbunden. Übrigens: auch GPT-4 endet mit dem Dataset im Jahre 2021.
Nutzt ChatGPT mein Feedback, um sein Modell zu optimieren?
ChatGPT berücksichtigt das Feedback von Nutzer:innen nur innerhalb einer Sitzung und nicht darüber hinaus. Allerdings ist unklar, was OpenAI später mit Ihren Eingaben macht – manche sehen die aktuelle Phase als einen großen Betatest, für den Nutzer:innen quasi gratis Daten liefern. Seit Kurzem lässt sich über die API von ChatGPT auch steuern, welche Daten gespeichert werden und welche nicht.
Nutzt ChatGPT bereits GPT-4?
GPT-4 ist über die kostenpflichtige ChatGPT Plus Premiumversion des Dienstes eingebunden. In der kostenfreien Version nutzt der Chatbot noch GPT-3 als Grundlage.