Definicja
Ewaluacja modelu
Ewaluacja modelu mierzy, czy model AI jest wystarczająco dokładny, bezpieczny, stabilny i użyteczny dla konkretnego zadania.
Krótka definicja
Ewaluacja modelu to testowanie systemu AI według kryteriów ważnych dla danego zastosowania. Może obejmować trafność, kompletność, bezpieczeństwo, koszt, opóźnienie, odporność, stronniczość i satysfakcję użytkownika.
Jak to działa
Zespoły tworzą zestawy testowe, benchmarki, rubryki oceny człowieka albo automatyczne testy. W generatywnej AI często trzeba łączyć metryki liczbowe z oceną ekspercką, bo dobra odpowiedź może mieć wiele poprawnych wersji.
Przykład
Przed wdrożeniem asystenta supportowego zespół może sprawdzić, czy system poprawnie odpowiada na pytania o polityki, odmawia niebezpiecznych próśb, cytuje źródła i eskaluje niepewne przypadki.
Dlaczego to ważne
Bez ewaluacji wdrożenie AI jest zgadywaniem. Testy pozwalają porównywać wersje, wykrywać regresje i ustalać, gdzie konieczna jest kontrola człowieka.