Tencent predstavlja ArtifactsBench za procjenu AI modela

Tencent je predstavio novi benchmark, ArtifactsBench, koji ima za cilj riješiti trenutne probleme s testiranjem kreativnih AI modela.

Jeste li ikada tražili od AI-a da izradi nešto poput jednostavne web stranice ili grafikona i dobili nešto što radi, ali ima loše korisničko iskustvo? Tipke mogu biti na pogrešnom mjestu, boje se mogu sukobiti, ili animacije mogu izgledati grubo. To je uobičajen problem i ističe veliki izazov u svijetu razvoja AI-a: kako naučiti stroj da ima dobar ukus?

Dugo vremena testirali smo AI modele na njihovoj sposobnosti pisanja ispravnog koda. Ova ispitivanja mogla su potvrditi da će kod raditi, ali su bila potpuno “slijepa” na vizualnu vjernost i interaktivnu integritetu koja definira moderno korisničko iskustvo.

Ovo je točno problem koji je ArtifactsBench dizajniran riješiti. To je manje test i više automatizirani umjetnički kritičar za AI-generirani kod.

🚀 Oduševljeni smo što predstavljamo #ArtifactsBench! Povezujemo vizualnu-interaktivnu prazninu u evaluaciji generiranja koda.

Naš benchmark koristi novitetski automatizirani, multimodalni sustav za procjenu LLM-ova na 1,825 raznolikih zadataka. MLLM kao sudac procjenjuje vizualne artefakte, postignuvši 94.4% točnosti… pic.twitter.com/84xClcnNyS

— Hunyuan (@TencentHunyuan) 9. srpnja 2025.

Postizanje pravog rezultata, kao što bi čovjek trebao

Kako radi Tencentov AI benchmark? Prvo, AI dobiva kreativni zadatak iz kataloga od više od 1,800 izazova, od izrade vizualizacija podataka i web aplikacija do stvaranja interaktivnih mini igara.

Kada AI generira kod, ArtifactsBench počinje raditi. Automatski gradi i pokreće kod u sigurnom i izoliranom okruženju.

Kako bi vidio kako aplikacija funkcionira, snima niz snimaka zaslona tijekom vremena. To mu omogućuje provjeru stvari poput animacija, promjena stanja nakon klika na gumb i drugih dinamičnih povratnih informacija korisnika.

Na kraju, predaje sve ove dokaze – originalni zahtjev, AI-ov kod i snimke zaslona – multimodalnom LLM-u (MLLM), kako bi djelovao kao sudac.

Ovaj MLLM sudac ne daje samo nejasno mišljenje, već koristi detaljnu, po-zadatku kontrolnu listu za ocjenjivanje rezultata prema deset različitih mjernih kriterija. Ocjenjivanje uključuje funkcionalnost, korisničko iskustvo, pa čak i estetsku kvalitetu. To osigurava da je ocjenjivanje pošteno, dosljedno i temeljito.

Veliko pitanje je, ima li ovaj automatizirani sudac dobar ukus? Rezultati sugeriraju da ima.

Kada su rangiranja iz ArtifactsBench uspoređena s WebDev Arenom, platformom gdje stvarni ljudi glasaju za najbolje AI kreacije, podudarala su se s 94.4% dosljednosti. Ovo je veliki skok u odnosu na starije automatizirane benchmarke, koji su imali samo oko 69.4% dosljednosti.

Osim toga, presude frameworka pokazale su više od 90% suglasnosti s profesionalnim ljudskim programerima.

Tencent ocjenjuje kreativnost vrhunskih AI modela s novim benchmarkom

Kada je Tencent testirao više od 30 najboljih AI modela na svijetu, ljestvica je otkrila zanimljive uvide. Dok su najbolji komercijalni modeli iz Googlea (Gemini-2.5-Pro) i Anthropic (Claude 4.0-Sonnet) zauzeli vodeće pozicije, testovi su otkrili fascinantan uvid.

Mislili biste da bi AI specijaliziran za pisanje koda bio najbolji u ovim zadacima. No, suprotno je istina. Istraživanje je pokazalo da “holističke sposobnosti generalističkih modela često nadmašuju one specijaliziranih”.

Generalistički model, Qwen-2.5-Instruct, zapravo je nadmašio svoje specijalizirane sestre, Qwen-2.5-coder (model specifičan za kod) i Qwen2.5-VL (model specijaliziran za viziju).

Istraživači smatraju da je to zbog toga što stvaranje izvrsne vizualne aplikacije nije samo o kodiranju ili vizualnom razumijevanju u izolaciji, već zahtijeva mješavinu vještina.

“Robusno rasuđivanje, suptilno praćenje uputa i implicitni osjećaj dizajnerske estetike”, ističu istraživači kao primjer vitalnih vještina. To su vrste dobro zaokruženih, gotovo ljudskih sposobnosti koje najbolji generalistički modeli počinju razvijati.

Tencent se nada da će njegov benchmark ArtifactsBench pouzdano procijeniti ove kvalitete i tako mjeriti budući napredak u sposobnosti AI-a da stvara stvari koje nisu samo funkcionalne, već i ono što korisnici zapravo žele koristiti.

Vidi također: Tencent Hunyuan3D-PolyGen: Model za ‘umjetničke’ 3D resurse

Želite li saznati više o AI-u i velikim podacima od lidera industrije? Posjetite AI & Big Data Expo koji se održava u Amsterdamu, Kaliforniji i Londonu. Opsežni događaj održava se zajedno s drugim vodećim događanjima uključujući Konferenciju o inteligentnoj automatizaciji, BlockX, Tjedan digitalne transformacije i Cyber Security & Cloud Expo.

Istražite druge nadolazeće događaje i webinare o tehnologijama za poduzeća koje pokreće TechForge ovdje.

Hot topics

Finance

Marketing

Politics

Strategy

Hot topics

Finance

Marketing

Politics

Strategy

Tencent predstavlja ArtifactsBench za procjenu AI modela

Postizanje pravog rezultata, kao što bi čovjek trebao

Tencent ocjenjuje kreativnost vrhunskih AI modela s novim benchmarkom

Topics

Related Articles

Company

Headlines

Newsletter