Definicja
Tokenizacja
Tokenizacja dzieli tekst na fragmenty zwane tokenami, aby modele językowe mogły przetwarzać, liczyć i generować tekst.
Krótka definicja
Tokenizacja to proces dzielenia tekstu na mniejsze jednostki zwane tokenami. Tokenem może być słowo, fragment słowa, znak interpunkcyjny albo symbol, zależnie od tokenizera.
Jak to działa
Modele językowe nie czytają surowego tekstu tak jak człowiek. Tekst jest zamieniany na identyfikatory tokenów, przetwarzany przez model, a potem składany z powrotem w czytelny tekst.
Przykład
Fraza sztuczna inteligencja może zostać podzielona inaczej w różnych modelach. Długi raport może zużyć tysiące tokenów, zanim model zacznie generować odpowiedź.
Dlaczego to ważne
Tokeny wpływają na limit kontekstu, koszt, opóźnienie i długość odpowiedzi. Tokenizacja ma też znaczenie dla języków innych niż angielski, bo różne języki są dzielone w różny sposób.