Definicja
Widzenie komputerowe
Widzenie komputerowe to dziedzina AI, która pozwala oprogramowaniu interpretować obrazy, wideo i wzorce wizualne.
Krótka definicja
Widzenie komputerowe zajmuje się rozumieniem obrazu przez oprogramowanie. Systemy tego typu mogą wykrywać obiekty, klasyfikować zdjęcia, odczytywać tekst z obrazu, śledzić ruch i analizować nagrania wideo.
Jak to działa
Nowoczesne modele widzenia często wykorzystują głębokie uczenie. Uczą się cech wizualnych takich jak krawędzie, tekstury, kształty i obiekty, a potem stosują te wzorce do nowych obrazów.
Przykład
W produkcji system wizyjny może sprawdzać jakość elementów na linii i wykrywać defekty szybciej niż człowiek. W handlu może analizować dostępność produktów na półkach.
Dlaczego to ważne
Widzenie komputerowe łączy AI ze światem fizycznym. Wspiera diagnostykę obrazową, robotykę, kontrolę jakości i wyszukiwanie obrazem, ale wymaga uwagi na prywatność, błędy i stronniczość danych.
Najważniejsze typy zadań
Klasyfikacja przypisuje etykietę całemu obrazowi, detekcja wskazuje położenie obiektów, segmentacja oznacza konkretne piksele, a OCR odczytuje tekst. Dobór zadania wpływa na dane treningowe, metryki i koszt wdrożenia. Model klasyfikacyjny nie wskaże automatycznie miejsca defektu, jeśli nie został do tego przygotowany.
Warunki świata rzeczywistego
Jakość może spaść po zmianie kamery, perspektywy, oświetlenia, tła albo pory roku. Testy powinny obejmować warunki gorsze od idealnych oraz przypadki, w których obiekt jest częściowo zasłonięty. Przy analizie ludzi konieczne są także zasady retencji danych, kontrola dostępu i ocena wpływu na prywatność.