{"id":153,"date":"2025-03-06T23:38:02","date_gmt":"2025-03-06T23:38:02","guid":{"rendered":"https:\/\/nils-becker.org\/?p=153"},"modified":"2025-03-07T17:05:27","modified_gmt":"2025-03-07T17:05:27","slug":"wie-lang-koennen-woerter-in-chatgpt-sein-und-wie-erfindet-es-neue-2","status":"publish","type":"post","link":"https:\/\/nils-becker.org\/?p=153","title":{"rendered":"Wie lang k\u00f6nnen W\u00f6rter in ChatGPT sein? Und wie erfindet es neue?"},"content":{"rendered":"\n<p>Hast du dich schon einmal gefragt, wie ChatGPT neue W\u00f6rter bilden kann, obwohl es ein festes Vokabular hat? Oder was das l\u00e4ngste Wort in seinem Vokabular ist? &#x1f914;<\/p>\n\n\n\n<p>Hier bekommst du die Antworten. &#x1f913;<\/p>\n\n\n\n<!--more weiter-->\n\n\n\n<h3 class=\"wp-block-heading\">Tokens statt W\u00f6rter<\/h3>\n\n\n\n<p>Um das zu verstehen, m\u00fcssen wir uns zuerst das Konzept der Tokens anschauen. ChatGPT arbeitet nicht direkt mit W\u00f6rtern, sondern mit Tokens \u2013 das sind kleine Einheiten aus Zeichen, die oft k\u00fcrzer als ein Wort sind.<\/p>\n\n\n\n<p>Das Vokabular von ChatGPT besteht aus 100.277 Tokens, darunter auch spezielle Tokens f\u00fcr Steuerbefehle (z. B. das Ende eines Textes). Ein englisches Wort wird im Durchschnitt in 1,34 Tokens zerlegt, ein deutsches Wort in etwa 1,78 Tokens. Das Wort <em>Captain<\/em> zum Beispiel existiert nicht als einzelnes Token, sondern wird in <strong>\u201ecapt\u201c<\/strong> und <strong>\u201eain\u201c<\/strong> zerlegt.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Wie erfindet ChatGPT neue W\u00f6rter?<\/h3>\n\n\n\n<p>Da das Modell mit einzelnen Tokens arbeitet, kann es neue W\u00f6rter generieren, indem es bestehende Tokens kombiniert. So entstehen auch kreative Neologismen. Die kleinsten Tokens sind \u00fcbrigens einzelne Zeichen \u2013 das bedeutet dass es auch v\u00f6llig neue Begriffe \u201eerfinden\u201c kann, indem es einzelne Buchstaben aneinanderreiht.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Wie lang kann ein Wort sein?<\/h3>\n\n\n\n<p>Hier kommt die Kontextl\u00e4nge ins Spiel. ChatGPT kann maximal 4.096 Tokens auf einmal verarbeiten \u2013 rein theoretisch k\u00f6nnte also ein einzelnes Wort so lang sein! Praktisch w\u00e4re das aber wenig sinnvoll.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Und das l\u00e4ngste Token im Vokabular?<\/h3>\n\n\n\n<p>Die Antwort ist unerwartet: <strong>Es ist ein Token, das aus 128 Leerzeichen besteht.<\/strong> &#x1f604; (Token Nummer 58040)<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"697\" height=\"701\" src=\"https:\/\/nils-becker.org\/wp-content\/uploads\/2025\/03\/linked_in.png\" alt=\"\" class=\"wp-image-188\" srcset=\"https:\/\/nils-becker.org\/wp-content\/uploads\/2025\/03\/linked_in.png 697w, https:\/\/nils-becker.org\/wp-content\/uploads\/2025\/03\/linked_in-298x300.png 298w, https:\/\/nils-becker.org\/wp-content\/uploads\/2025\/03\/linked_in-150x150.png 150w\" sizes=\"auto, (max-width: 697px) 100vw, 697px\" \/><figcaption class=\"wp-element-caption\">ChatGPT kann auch neue W\u00f6rter erfinden.<\/figcaption><\/figure>\n","protected":false},"excerpt":{"rendered":"<p>Hast du dich schon einmal gefragt, wie ChatGPT neue W\u00f6rter bilden kann, obwohl es ein festes Vokabular hat? Oder was das l\u00e4ngste Wort in seinem Vokabular ist? &#x1f914; Hier bekommst du die Antworten. &#x1f913;<\/p>\n","protected":false},"author":1,"featured_media":188,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[14],"tags":[20,18,16],"class_list":["post-153","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-nlp","tag-chatgpt","tag-llm","tag-nlp"],"_links":{"self":[{"href":"https:\/\/nils-becker.org\/index.php?rest_route=\/wp\/v2\/posts\/153","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/nils-becker.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/nils-becker.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/nils-becker.org\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/nils-becker.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=153"}],"version-history":[{"count":9,"href":"https:\/\/nils-becker.org\/index.php?rest_route=\/wp\/v2\/posts\/153\/revisions"}],"predecessor-version":[{"id":194,"href":"https:\/\/nils-becker.org\/index.php?rest_route=\/wp\/v2\/posts\/153\/revisions\/194"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/nils-becker.org\/index.php?rest_route=\/wp\/v2\/media\/188"}],"wp:attachment":[{"href":"https:\/\/nils-becker.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=153"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/nils-becker.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=153"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/nils-becker.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=153"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}