Istraživači umjetne inteligencije (AI) i laboratoriji napreduju u procjeni AI modela koji se bave svim, od sigurnosti i usklađenosti do sukobljenih interesa i usklađenosti. Međutim, čini se da se tvrtke i programeri suočavaju s novom, specifičnom potrebom: osigurati da njihov AI sustav djeluje onako kako je zamišljeno za njihov specifičan proizvod ili uslugu.
U nastojanju da olakša taj proces testiranja, Microsoft je u utorak predstavio ASSERT, skraćenicu za Adaptivno ocjenjivanje temeljenog na specifikacijama za evaluaciju i regresijsko testiranje.
Ovaj okvir otvorenog koda, kako tvrdi Microsoft, olakšava procjenu ponašanja AI-a specifičnog za aplikacije koristeći AI za pretvaranje visokih, prirodnih jezika opisa ciljeva, politika ili željenih ponašanja u sveobuhvatne, ocijenjene testove koje je moguće istražiti.
ASSERT uzima opise očekivanog ponašanja i politika AI modela na običnom jeziku, pretvara ih u strukturirani set prihvatljivih i neprihvatljivih ponašanja, generira problematične scenarije i testne slučajeve, izvršava ih protiv ciljanog sustava i ocjenjuje rezultate. Također može zabilježiti putanje koje AI sustav poduzima, uključujući međudjelovanja i pozive alata, kako bi programeri mogli ispitati gdje dolazi do neuspjeha.
Programeri mogu također pružiti kontekst sustava, alate i ograničenja ako žele dodatno prilagoditi što evaluacije pokrivaju.
Na primjer, programer bi mogao specificirati da AI agent za istraživanje dokumenata ne smije slati e-poštu ljudima izvan tvrtke, da bi trebao ograničiti povjerljive informacije na izvršne direktore i pružiti sažetke uzimajući u obzir prethodni kontekst. ASSERT će koristiti ta pravila za generiranje testnih slučajeva koji provjeravaju poštuje li sustav ta pravila.

Prema Microsoftu, ovaj okvir popunjava prazninu koju šire, općenitije evaluacije ne mogu kada se AI modeli namjeravaju ponašati na način oblikovan kontekstom aplikacije ili proizvoda, politikama i alatima.
“Jedna od stvari koje smo naučili je da su evaluacije apsolutno ključne za donošenje dobrih odluka,” rekla je Sarah Bird, glavna direktorica proizvoda za odgovornu AI u Microsoftu. “Jer, ako ne razumijete ponašanje AI sustava, jako je teško znati ispunjava li vašu organizacijsku normu… Ono što smo otkrili je da, ako želite imati pouzdan sustav, trebate procijeniti mnogo više dimenzija koje su specifične za aplikaciju.”
Bird je izjavila da se ASSERT može koristiti za evaluaciju sustava tijekom izgradnje, nakon implementacije, pa čak i za kontinuirano praćenje.
Ovo izdanje dolazi usred postupnog, ali šireg pomaka u AI industriji. Kako modeli postaju sve sposobniji, istraživači se fokusiraju na ponovljive testove i regresijske provjere, s Stanfordovim HELM, MLCommonsovim AILuminate i evaluacijskim grupama poput METR koji uvode standarde za mjerenje kako se modeli ponašaju pod različitim uvjetima.



