← Słownik AI

Definicja

Ewaluacja modelu

Ewaluacja modelu mierzy, czy model AI jest wystarczająco dokładny, bezpieczny, stabilny i użyteczny dla konkretnego zadania.

Znane też jako: AI evaluation, evals, ocena modelu

Krótka definicja

Ewaluacja modelu to testowanie systemu AI według kryteriów ważnych dla danego zastosowania. Może obejmować trafność, kompletność, bezpieczeństwo, koszt, opóźnienie, odporność, stronniczość i satysfakcję użytkownika.

Jak to działa

Zespoły tworzą zestawy testowe, benchmarki, rubryki oceny człowieka albo automatyczne testy. W generatywnej AI często trzeba łączyć metryki liczbowe z oceną ekspercką, bo dobra odpowiedź może mieć wiele poprawnych wersji.

Przykład

Przed wdrożeniem asystenta supportowego zespół może sprawdzić, czy system poprawnie odpowiada na pytania o polityki, odmawia niebezpiecznych próśb, cytuje źródła i eskaluje niepewne przypadki.

Dlaczego to ważne

Bez ewaluacji wdrożenie AI jest zgadywaniem. Testy pozwalają porównywać wersje, wykrywać regresje i ustalać, gdzie konieczna jest kontrola człowieka.