Definicja
Tokenizacja
Tokenizacja dzieli tekst na fragmenty zwane tokenami, aby modele językowe mogły przetwarzać, liczyć i generować tekst.
Krótka definicja
Tokenizacja to proces dzielenia tekstu na mniejsze jednostki zwane tokenami. Tokenem może być słowo, fragment słowa, znak interpunkcyjny albo symbol, zależnie od tokenizera.
Jak to działa
Modele językowe nie czytają surowego tekstu tak jak człowiek. Tekst jest zamieniany na identyfikatory tokenów, przetwarzany przez model, a potem składany z powrotem w czytelny tekst.
Przykład
Fraza sztuczna inteligencja może zostać podzielona inaczej w różnych modelach. Długi raport może zużyć tysiące tokenów, zanim model zacznie generować odpowiedź.
Dlaczego to ważne
Tokeny wpływają na limit kontekstu, koszt, opóźnienie i długość odpowiedzi. Tokenizacja ma też znaczenie dla języków innych niż angielski, bo różne języki są dzielone w różny sposób.
Token nie jest równy słowu
Jedno krótkie słowo może być jednym tokenem, a rzadkie nazwisko lub fragment kodu może zostać podzielony na kilka części. Spacje, znaki specjalne i formatowanie również mają znaczenie. Z tego powodu nie można dokładnie przeliczać liczby słów na tokeny jednym stałym współczynnikiem.
Znaczenie praktyczne
Przy projektowaniu aplikacji trzeba uwzględnić tokeny instrukcji systemowej, historii rozmowy, dokumentów RAG i generowanej odpowiedzi. Przekroczenie limitu może prowadzić do odcięcia wcześniejszego kontekstu. Warto liczyć tokeny tokenizerem właściwym dla danego modelu i zostawiać zapas, zamiast opierać koszt oraz limity na długości tekstu widocznej dla człowieka.