← Słownik AI

Definicja

Multimodalna AI

Multimodalna AI potrafi przetwarzać lub generować więcej niż jeden typ danych, na przykład tekst, obrazy, dźwięk, wideo lub kod.

Znane też jako: model multimodalny

Krótka definicja

Multimodalna AI działa na kilku typach danych. Model może czytać tekst i obraz jednocześnie, odpowiadać na pytania o wykres, opisywać fragment wideo albo generować grafikę z instrukcji tekstowej.

Jak to działa

System musi połączyć reprezentacje różnych modalności. Obrazy, dźwięk lub wideo są zamieniane na reprezentacje, które model może zestawić z językiem i wykorzystać w odpowiedzi.

Przykład

Użytkownik może przesłać zrzut ekranu dashboardu i poprosić model o wyjaśnienie trendu, wskazanie anomalii i zaproponowanie kolejnych pytań analitycznych.

Dlaczego to ważne

Wiele realnych zadań nie jest wyłącznie tekstowych. Multimodalna AI jest ważna w projektowaniu, dostępności, edukacji, robotyce i analizie wizualnej. Zwiększa też ryzyko błędnej interpretacji obrazów lub manipulacji materiałami.