Definicja
Embedding
Embedding to liczbowa reprezentacja tekstu, obrazu lub innych danych, która pozwala porównywać znaczenie i podobieństwo.
Krótka definicja
Embedding to lista liczb reprezentująca znaczenie lub cechy obiektu. Tekst, obraz, produkt, użytkownik albo dokument mogą zostać zamienione na embedding, aby system mógł porównywać je matematycznie.
Jak to działa
Model embeddingowy mapuje dane do przestrzeni wektorowej. Elementy podobne znaczeniowo znajdują się bliżej siebie, dzięki czemu można wyszukiwać po sensie, a nie tylko po dokładnych słowach kluczowych.
Przykład
Pytania reset hasła nie działa i nie mogę wejść na konto mogą mieć podobne embeddingi, mimo że używają innych słów. System RAG może dzięki temu znaleźć właściwy artykuł pomocy.
Dlaczego to ważne
Embeddingi są podstawą wyszukiwania semantycznego, rekomendacji i RAG. Ich jakość zależy od modelu, domeny danych i sposobu indeksowania.
Jak porównuje się embeddingi
Najczęściej używa się podobieństwa cosinusowego, iloczynu skalarnego albo odległości euklidesowej. Sam wybór metryki powinien być zgodny z modelem embeddingowym. Dokumenty i pytania muszą być kodowane tym samym modelem; zmiana modelu zwykle wymaga ponownego utworzenia całego indeksu.
Typowe problemy
Embedding może dobrze odwzorowywać ogólne znaczenie, ale słabiej radzić sobie z numerami, negacją albo językiem specjalistycznym. Dlatego wyszukiwanie semantyczne często łączy się z filtrami i klasycznym wyszukiwaniem tekstowym. Trzeba też uważać na prywatność: wektor nie jest czytelnym zdaniem, ale nadal może reprezentować wrażliwą treść i wymaga odpowiedniej ochrony.