← Słownik AI

Definicja

Tokenizacja

Tokenizacja dzieli tekst na fragmenty zwane tokenami, aby modele językowe mogły przetwarzać, liczyć i generować tekst.

Znane też jako: tokeny, tokenizer

Krótka definicja

Tokenizacja to proces dzielenia tekstu na mniejsze jednostki zwane tokenami. Tokenem może być słowo, fragment słowa, znak interpunkcyjny albo symbol, zależnie od tokenizera.

Jak to działa

Modele językowe nie czytają surowego tekstu tak jak człowiek. Tekst jest zamieniany na identyfikatory tokenów, przetwarzany przez model, a potem składany z powrotem w czytelny tekst.

Przykład

Fraza sztuczna inteligencja może zostać podzielona inaczej w różnych modelach. Długi raport może zużyć tysiące tokenów, zanim model zacznie generować odpowiedź.

Dlaczego to ważne

Tokeny wpływają na limit kontekstu, koszt, opóźnienie i długość odpowiedzi. Tokenizacja ma też znaczenie dla języków innych niż angielski, bo różne języki są dzielone w różny sposób.