← Słownik AI

Definicja

Ewaluacja modelu

Ewaluacja modelu mierzy, czy model AI jest wystarczająco dokładny, bezpieczny, stabilny i użyteczny dla konkretnego zadania.

Znane też jako: AI evaluation, evals, ocena modelu

Krótka definicja

Ewaluacja modelu to testowanie systemu AI według kryteriów ważnych dla danego zastosowania. Może obejmować trafność, kompletność, bezpieczeństwo, koszt, opóźnienie, odporność, stronniczość i satysfakcję użytkownika.

Jak to działa

Zespoły tworzą zestawy testowe, benchmarki, rubryki oceny człowieka albo automatyczne testy. W generatywnej AI często trzeba łączyć metryki liczbowe z oceną ekspercką, bo dobra odpowiedź może mieć wiele poprawnych wersji.

Przykład

Przed wdrożeniem asystenta supportowego zespół może sprawdzić, czy system poprawnie odpowiada na pytania o polityki, odmawia niebezpiecznych próśb, cytuje źródła i eskaluje niepewne przypadki.

Dlaczego to ważne

Bez ewaluacji wdrożenie AI jest zgadywaniem. Testy pozwalają porównywać wersje, wykrywać regresje i ustalać, gdzie konieczna jest kontrola człowieka.

Co powinien zawierać dobry zestaw testowy

Poza typowymi pytaniami powinny znaleźć się w nim przypadki graniczne, niejednoznaczne instrukcje, brakujące dane i próby nadużycia. Przykłady muszą przypominać prawdziwy ruch, a nie wyłącznie łatwe demonstracje przygotowane przez zespół.

Ewaluacja ciągła

Jednorazowy benchmark przed premierą nie wystarcza. Model, prompt, źródła RAG i zachowanie użytkowników zmieniają się w czasie. Warto zachować stały zestaw regresyjny i uzupełniać go problemami wykrytymi na produkcji. Automatyczna ocena przyspiesza pracę, ale w zadaniach specjalistycznych nadal potrzebna jest kontrola człowieka, który rozumie domenę i konsekwencje błędu.