Subota, 14 veljače, 2026
3.8 C
London

Xbench: Novi standard za testiranje AI modela

Kada testirate AI model, teško je odrediti je li u pitanju rezoniranje ili samo ponavljanje odgovora iz podataka za obuku. Xbench, novi benchmark koji je razvila kineska investicijska tvrtka HSG, mogao bi pomoći u rješavanju tog problema. To je omogućeno načinom na koji evaluira modele ne samo prema sposobnosti prolaska arbitrarnih testova, kao većina drugih benchmarka, već i prema sposobnosti izvršavanja stvarnih zadataka, što je neobičnije. Xbench će se redovito ažurirati kako bi ostao relevantan. Ovaj tjedan tvrtka objavljuje dio seta pitanja kao open-source i omogućava svima besplatno korištenje. Tim je također objavio ljestvicu koja uspoređuje kako se mainstream AI modeli rangiraju kada se testiraju na Xbenchu. (ChatGPT o3 zauzeo je prvo mjesto u svim kategorijama, iako su ByteDanceov Doubao, Gemini 2.5 Pro i Grok također ostvarili dobre rezultate, kao i Claude Sonnet.) Razvoj benchmarka u HongShanu započeo je 2022. godine, nakon uspjeha ChatGPT-a, kao interni alat za procjenu koji modeli vrijedi investirati. Od tada, pod vodstvom partnera Gonga Yuana, tim je postupno proširio sustav, uključujući vanjske istraživače i profesionalce kako bi ga usavršili. Kako je projekt postajao sofisticiraniji, odlučili su ga objaviti javnosti.

Xbench pristupa problemu s dva različita sustava. Jedan je sličan tradicionalnom benchmarkingu: akademskom testu koji mjeri sposobnosti modela na raznim predmetima. Drugi je više poput tehničkog intervju kruga za posao, procjenjujući koliko stvarne ekonomske vrijednosti model može pružiti. Metode Xbench-a za procjenu sirove inteligencije trenutno uključuju dva komponenta: Xbench-ScienceQA i Xbench-DeepResearch. ScienceQA nije radikalna promjena od postojećih STEM benchmarka na razini postdiplomskog studija poput GPQA i SuperGPQA. Uključuje pitanja iz područja od biohemije do orbitalne mehanike, koja su sastavili studenti diplomskog studija i provjerili profesori. Bodovanje nagrađuje ne samo pravi odgovor već i lanac rezoniranja koji do njega vodi.

DeepResearch, s druge strane, fokusira se na sposobnost modela da navigira kineskim jezikom na internetu. Deset stručnjaka stvorilo je 100 pitanja iz glazbe, povijesti, financija i književnosti – pitanja koja se ne mogu jednostavno pronaći putem Googla, već zahtijevaju značajno istraživanje za odgovor. Bodovanje favorizira raznolikost izvora, činjeničnu dosljednost i spremnost modela da prizna kada nema dovoljno podataka. Jedno od pitanja u objavljenoj kolekciji je „Koliko kineskih gradova u tri sjeverozapadne provincije graniči s inozemnom zemljom?“ (Odgovor je 12, a samo 33% testiranih modela je točno odgovorilo, ako vas zanima.)

Na web stranici tvrtke, istraživači su izjavili da žele dodati više dimenzija testu – na primjer, aspekte poput kreativnosti modela u rješavanju problema, kolaborativnosti pri radu s drugim modelima i pouzdanosti. Tim se obvezao ažurirati pitanja svakog kvartala i održavati polu-javni, polu-privatni skup podataka. Kako bi procijenili spremnost modela za stvarni svijet, tim je surađivao s ekspertima na razvoju zadataka temeljenih na stvarnim radnim tokovima, prvotno u regrutiranju i marketingu. Na primjer, jedan zadatak traži od modela da pronađe pet kvalificiranih kandidata za inženjere baterija i opravda svaki odabir. Drugi traži da uskladi oglašivače s odgovarajućim kreatorima kratkih videa iz bazena od više od 800 influencera. Web stranica također najavljuje nadolazeće kategorije, uključujući financije, pravne poslove, računovodstvo i dizajn. Setovi pitanja za ove kategorije još nisu otvoreni kao open-source. ChatGPT-o3 ponovno zauzima prvo mjesto u obje trenutne profesionalne kategorije. Za regrutiranje, Perplexity Search i Claude 3.5 Sonnet zauzimaju drugo i treće mjesto. Za marketing, Claude, Grok i Gemini ostvaruju dobre rezultate. „Za benchmarke je zaista teško uključiti stvari koje je teško kvantificirati“, kaže Zihan Zheng, vodeći istraživač novog benchmarka pod nazivom LiveCodeBench Pro i student na NYU. „Ali Xbench predstavlja obećavajući početak.“

Hot this week

Odliv talenata u AI industriji

Tvrtke koje se bave umjetnom inteligencijom u posljednjih su...

Airbnb uvodi AI agent u korisničku podršku

Airbnb je objavio da njegov prilagođeni AI agent već...

Odliv talenata iz AI kompanija

U posljednjih nekoliko tjedana, kompanije za umjetnu inteligenciju suočavaju...

OpenAI ukida pristup starim ChatGPT modelima

Od petka, OpenAI će prekinuti pružanje pristupa pet starim...

Claude aplikacija bilježi porast preuzimanja

Reklame Anthropicove Super Bowl — koje prikazuju mračne komedije...

Topics

Odliv talenata u AI industriji

Tvrtke koje se bave umjetnom inteligencijom u posljednjih su...

Airbnb uvodi AI agent u korisničku podršku

Airbnb je objavio da njegov prilagođeni AI agent već...

Odliv talenata iz AI kompanija

U posljednjih nekoliko tjedana, kompanije za umjetnu inteligenciju suočavaju...

OpenAI ukida pristup starim ChatGPT modelima

Od petka, OpenAI će prekinuti pružanje pristupa pet starim...

Claude aplikacija bilježi porast preuzimanja

Reklame Anthropicove Super Bowl — koje prikazuju mračne komedije...

Cohere premašio očekivanja u prihodu

UkratkoObjavljeno:7:03 AM PST · 13. veljače 2026.Dok vodeći AI...

Umjetna inteligencija u ljudskim resursima

Za mnoge tvrtke, prvi pravi test umjetne inteligencije (AI)...

Alibaba pokreće RynnBrain za fizičku AI

Alibaba je ušao u utrku za izgradnju umjetne inteligencije...
spot_img

Related Articles

Popular Categories

spot_imgspot_img