Hast du dich schon einmal gefragt, wie ChatGPT neue Wörter bilden kann, obwohl es ein festes Vokabular hat? Oder was das längste Wort in seinem Vokabular ist? 🤔
Hier bekommst du die Antworten. 🤓
Tokens statt Wörter
Um das zu verstehen, müssen wir uns zuerst das Konzept der Tokens anschauen. ChatGPT arbeitet nicht direkt mit Wörtern, sondern mit Tokens – das sind kleine Einheiten aus Zeichen, die oft kürzer als ein Wort sind.
Das Vokabular von ChatGPT besteht aus 100.277 Tokens, darunter auch spezielle Tokens für Steuerbefehle (z. B. das Ende eines Textes). Ein englisches Wort wird im Durchschnitt in 1,34 Tokens zerlegt, ein deutsches Wort in etwa 1,78 Tokens. Das Wort Captain zum Beispiel existiert nicht als einzelnes Token, sondern wird in „capt“ und „ain“ zerlegt.
Wie erfindet ChatGPT neue Wörter?
Da das Modell mit einzelnen Tokens arbeitet, kann es neue Wörter generieren, indem es bestehende Tokens kombiniert. So entstehen auch kreative Neologismen. Die kleinsten Tokens sind übrigens einzelne Zeichen – das bedeutet dass es auch völlig neue Begriffe „erfinden“ kann, indem es einzelne Buchstaben aneinanderreiht.
Wie lang kann ein Wort sein?
Hier kommt die Kontextlänge ins Spiel. ChatGPT kann maximal 4.096 Tokens auf einmal verarbeiten – rein theoretisch könnte also ein einzelnes Wort so lang sein! Praktisch wäre das aber wenig sinnvoll.
Und das längste Token im Vokabular?
Die Antwort ist unerwartet: Es ist ein Token, das aus 128 Leerzeichen besteht. 😄 (Token Nummer 58040)

Schreibe einen Kommentar