Desetljećima se umjetna inteligencija (UI) ocjenjuje kroz pitanje nadmašuju li strojevi ljude. Od šaha do napredne matematike, od programiranja do pisanja eseja, performanse UI modela i aplikacija testiraju se u odnosu na pojedinačne ljude koji dovršavaju zadatke. Ovaj okvir je privlačan: usporedba UI i ljudskih sposobnosti na izoliranim problemima s jasnim odgovorima lako se standardizira, uspoređuje i optimizira. Generira rang liste i naslove.
No, postoji problem: UI se gotovo nikada ne koristi na način na koji se ocjenjuje. Iako su istraživači i industrija počeli poboljšavati benchmarke prelaskom s statičkih testova na dinamičnije metode evaluacije, ove inovacije rješavaju samo dio problema. Jer, i dalje se ocjenjuje performansa UI izvan ljudskih timova i organizacijskih tokova rada gdje se njegova stvarna izvedba konačno odvija.
Dok se UI ocjenjuje na razini zadatka u vakuumu, koristi se u neurednim, složenim okruženjima gdje obično komunicira s više osoba. Njegova izvedba (ili nedostatak iste) pojavljuje se samo tijekom dužeg razdoblja korištenja. Ova neusklađenost dovodi do pogrešnog razumijevanja sposobnosti UI, zanemarivanja sistemskih rizika i pogrešnog procjenjivanja njegovih ekonomskih i društvenih posljedica.
Kako bismo to ublažili, vrijeme je da pređemo s uskih metoda na benchmarke koji procjenjuju kako UI sustavi djeluju tijekom dužih vremenskih razdoblja unutar ljudskih timova, tokova rada i organizacija. Istraživao sam stvarnu primjenu UI od 2022. godine u malim poduzećima i zdravstvenim, humanitarnim, neprofitnim i visokoobrazovnim organizacijama u Velikoj Britaniji, Sjedinjenim Američkim Državama i Aziji, kao i unutar vodećih ekosustava dizajna UI u Londonu i Silicijskoj dolini. Predlažem drugačiji pristup koji nazivam HAIC benchmark – evaluacija specifična za ljude i kontekst.
Kada UI ne uspije, benchmark rezultati čine se objektivnijima od tvrdnji dobavljača. Oni su ključni dio određivanja je li UI model ili aplikacija ‘dovoljno dobra’ za stvarnu primjenu. Zamislite UI model koji postiže impresivne tehničke rezultate na najmodernijim benchmark testovima – 98% točnosti, revolucionarnu brzinu, uvjerljive rezultate. Na temelju ovih rezultata, organizacije mogu odlučiti usvojiti model, obvezujući značajne financijske i tehničke resurse za kupnju i integraciju.
No, nakon usvajanja, razlika između benchmarka i stvarne izvedbe brzo postaje vidljiva. Primjerice, uzmite niz FDA-odobrenih UI modela koji mogu brže i točnije čitati medicinske skenove od stručnog radiologa. U radiološkim jedinicama bolnica od srca Kalifornije do predgrađa Londona, svjedočio sam osoblju koje koristi visoko rangirane radiološke UI aplikacije. Ponovno i ponovno, trebalo im je dodatno vrijeme za interpretaciju izlaza UI u skladu s bolničkim standardima izvještavanja i nacionalnim regulatornim zahtjevima.
To je jasno pokazalo da benchmark testovi na kojima se medicinski UI modeli ocjenjuju ne odražavaju kako se medicinske odluke zapravo donose. Bolnice se oslanjaju na multidisciplinarne timove – radiologe, onkologe, fizičare, medicinske sestre – koji zajednički pregledavaju pacijente. Planiranje liječenja rijetko se temelji na statičkoj odluci; ono se razvija kako se nove informacije pojavljuju tijekom dana ili tjedana.



