Definicja
Transformer
Transformer to architektura sieci neuronowej używająca mechanizmu uwagi do analizy relacji między tokenami tekstu, kodu, obrazu lub innych danych.
Krótka definicja
Transformer to architektura modelu, która stała się podstawą nowoczesnej AI językowej. Używa mechanizmu uwagi, aby określać, które fragmenty wejścia są dla siebie najważniejsze.
Jak to działa
Tekst jest dzielony na tokeny, zamieniany na reprezentacje liczbowe i przetwarzany przez warstwy uwagi. Dzięki temu model może łączyć odległe fragmenty kontekstu, na przykład zaimek z właściwym rzeczownikiem albo wywołanie funkcji z definicją.
Przykład
Gdy model streszcza długi akapit, uwaga transformera pomaga mu łączyć informacje z różnych części tekstu, zamiast przetwarzać słowa wyłącznie po kolei.
Dlaczego to ważne
Transformery napędzają wiele dużych modeli językowych i systemów multimodalnych. Dobrze skalują się z danymi i mocą obliczeniową, ale koszt ich trenowania i używania może być wysoki.