← Słownik AI

Definicja

Transformer

Transformer to architektura sieci neuronowej używająca mechanizmu uwagi do analizy relacji między tokenami tekstu, kodu, obrazu lub innych danych.

Znane też jako: architektura transformer, attention model

Krótka definicja

Transformer to architektura modelu, która stała się podstawą nowoczesnej AI językowej. Używa mechanizmu uwagi, aby określać, które fragmenty wejścia są dla siebie najważniejsze.

Jak to działa

Tekst jest dzielony na tokeny, zamieniany na reprezentacje liczbowe i przetwarzany przez warstwy uwagi. Dzięki temu model może łączyć odległe fragmenty kontekstu, na przykład zaimek z właściwym rzeczownikiem albo wywołanie funkcji z definicją.

Przykład

Gdy model streszcza długi akapit, uwaga transformera pomaga mu łączyć informacje z różnych części tekstu, zamiast przetwarzać słowa wyłącznie po kolei.

Dlaczego to ważne

Transformery napędzają wiele dużych modeli językowych i systemów multimodalnych. Dobrze skalują się z danymi i mocą obliczeniową, ale koszt ich trenowania i używania może być wysoki.