Subota, 6 lipnja, 2026
12.7 C
London

Microsoft predstavlja ASSERT za testiranje AI sustava

Istraživači umjetne inteligencije (AI) i laboratoriji napreduju u procjeni AI modela koji se bave svim, od sigurnosti i usklađenosti do sukobljenih interesa i usklađenosti. Međutim, čini se da se tvrtke i programeri suočavaju s novom, specifičnom potrebom: osigurati da njihov AI sustav djeluje onako kako je zamišljeno za njihov specifičan proizvod ili uslugu.

U nastojanju da olakša taj proces testiranja, Microsoft je u utorak predstavio ASSERT, skraćenicu za Adaptivno ocjenjivanje temeljenog na specifikacijama za evaluaciju i regresijsko testiranje.

Ovaj okvir otvorenog koda, kako tvrdi Microsoft, olakšava procjenu ponašanja AI-a specifičnog za aplikacije koristeći AI za pretvaranje visokih, prirodnih jezika opisa ciljeva, politika ili željenih ponašanja u sveobuhvatne, ocijenjene testove koje je moguće istražiti.

ASSERT uzima opise očekivanog ponašanja i politika AI modela na običnom jeziku, pretvara ih u strukturirani set prihvatljivih i neprihvatljivih ponašanja, generira problematične scenarije i testne slučajeve, izvršava ih protiv ciljanog sustava i ocjenjuje rezultate. Također može zabilježiti putanje koje AI sustav poduzima, uključujući međudjelovanja i pozive alata, kako bi programeri mogli ispitati gdje dolazi do neuspjeha.

Programeri mogu također pružiti kontekst sustava, alate i ograničenja ako žele dodatno prilagoditi što evaluacije pokrivaju.

Na primjer, programer bi mogao specificirati da AI agent za istraživanje dokumenata ne smije slati e-poštu ljudima izvan tvrtke, da bi trebao ograničiti povjerljive informacije na izvršne direktore i pružiti sažetke uzimajući u obzir prethodni kontekst. ASSERT će koristiti ta pravila za generiranje testnih slučajeva koji provjeravaju poštuje li sustav ta pravila.

Diagram ASSERT AI okvira
Izvori slike: Microsoft

Prema Microsoftu, ovaj okvir popunjava prazninu koju šire, općenitije evaluacije ne mogu kada se AI modeli namjeravaju ponašati na način oblikovan kontekstom aplikacije ili proizvoda, politikama i alatima.

“Jedna od stvari koje smo naučili je da su evaluacije apsolutno ključne za donošenje dobrih odluka,” rekla je Sarah Bird, glavna direktorica proizvoda za odgovornu AI u Microsoftu. “Jer, ako ne razumijete ponašanje AI sustava, jako je teško znati ispunjava li vašu organizacijsku normu… Ono što smo otkrili je da, ako želite imati pouzdan sustav, trebate procijeniti mnogo više dimenzija koje su specifične za aplikaciju.”

Bird je izjavila da se ASSERT može koristiti za evaluaciju sustava tijekom izgradnje, nakon implementacije, pa čak i za kontinuirano praćenje.

Ovo izdanje dolazi usred postupnog, ali šireg pomaka u AI industriji. Kako modeli postaju sve sposobniji, istraživači se fokusiraju na ponovljive testove i regresijske provjere, s Stanfordovim HELM, MLCommonsovim AILuminate i evaluacijskim grupama poput METR koji uvode standarde za mjerenje kako se modeli ponašaju pod različitim uvjetima.

Hot this week

Zajedništvo u svijetu tehnologije

Dok AI platforme neprestano ruše vlastite rekorde, neki osnivači...

Startupi se okreću ljudskijim iskustvima

Dok AI mašina za prikupljanje sredstava neprestano ruši vlastite...

Zadnji poziv za Startup Battlefield 200

Osnivači, imate još tri dana da se prijavite za...

SpaceX i Google sklapaju ugovor o računalnim resursima

SpaceX je sklopio novi ugovor o računalnim resursima uoči...

Rast troškova korištenja AI alata

Tvrtke u industriji počinju se opirati cijenama umjetne inteligencije....

Topics

Zajedništvo u svijetu tehnologije

Dok AI platforme neprestano ruše vlastite rekorde, neki osnivači...

Startupi se okreću ljudskijim iskustvima

Dok AI mašina za prikupljanje sredstava neprestano ruši vlastite...

Zadnji poziv za Startup Battlefield 200

Osnivači, imate još tri dana da se prijavite za...

SpaceX i Google sklapaju ugovor o računalnim resursima

SpaceX je sklopio novi ugovor o računalnim resursima uoči...

Rast troškova korištenja AI alata

Tvrtke u industriji počinju se opirati cijenama umjetne inteligencije....

AirTrunk planira investiciju od 30 milijardi dolara u Indiji

Operater podatkovnih centara AirTrunk, uz podršku Blackstone-a, objavio je...

Meta AI agent iskorišten za krađu Instagram računa

5. lipnja 404 Media izvijestio je da su napadači...

Mira Murati o budućnosti AI-a

Mira Murati nije prirodna pojava na konferencijama. Kao CTO...
spot_img

Related Articles

Popular Categories

spot_imgspot_img