Kada testirate AI model, teško je odrediti je li u pitanju rezoniranje ili samo ponavljanje odgovora iz podataka za obuku. Xbench, novi benchmark koji je razvila kineska investicijska tvrtka HSG, mogao bi pomoći u rješavanju tog problema. To je omogućeno načinom na koji evaluira modele ne samo prema sposobnosti prolaska arbitrarnih testova, kao većina drugih benchmarka, već i prema sposobnosti izvršavanja stvarnih zadataka, što je neobičnije. Xbench će se redovito ažurirati kako bi ostao relevantan. Ovaj tjedan tvrtka objavljuje dio seta pitanja kao open-source i omogućava svima besplatno korištenje. Tim je također objavio ljestvicu koja uspoređuje kako se mainstream AI modeli rangiraju kada se testiraju na Xbenchu. (ChatGPT o3 zauzeo je prvo mjesto u svim kategorijama, iako su ByteDanceov Doubao, Gemini 2.5 Pro i Grok također ostvarili dobre rezultate, kao i Claude Sonnet.) Razvoj benchmarka u HongShanu započeo je 2022. godine, nakon uspjeha ChatGPT-a, kao interni alat za procjenu koji modeli vrijedi investirati. Od tada, pod vodstvom partnera Gonga Yuana, tim je postupno proširio sustav, uključujući vanjske istraživače i profesionalce kako bi ga usavršili. Kako je projekt postajao sofisticiraniji, odlučili su ga objaviti javnosti.
Xbench pristupa problemu s dva različita sustava. Jedan je sličan tradicionalnom benchmarkingu: akademskom testu koji mjeri sposobnosti modela na raznim predmetima. Drugi je više poput tehničkog intervju kruga za posao, procjenjujući koliko stvarne ekonomske vrijednosti model može pružiti. Metode Xbench-a za procjenu sirove inteligencije trenutno uključuju dva komponenta: Xbench-ScienceQA i Xbench-DeepResearch. ScienceQA nije radikalna promjena od postojećih STEM benchmarka na razini postdiplomskog studija poput GPQA i SuperGPQA. Uključuje pitanja iz područja od biohemije do orbitalne mehanike, koja su sastavili studenti diplomskog studija i provjerili profesori. Bodovanje nagrađuje ne samo pravi odgovor već i lanac rezoniranja koji do njega vodi.
DeepResearch, s druge strane, fokusira se na sposobnost modela da navigira kineskim jezikom na internetu. Deset stručnjaka stvorilo je 100 pitanja iz glazbe, povijesti, financija i književnosti – pitanja koja se ne mogu jednostavno pronaći putem Googla, već zahtijevaju značajno istraživanje za odgovor. Bodovanje favorizira raznolikost izvora, činjeničnu dosljednost i spremnost modela da prizna kada nema dovoljno podataka. Jedno od pitanja u objavljenoj kolekciji je „Koliko kineskih gradova u tri sjeverozapadne provincije graniči s inozemnom zemljom?“ (Odgovor je 12, a samo 33% testiranih modela je točno odgovorilo, ako vas zanima.)
Na web stranici tvrtke, istraživači su izjavili da žele dodati više dimenzija testu – na primjer, aspekte poput kreativnosti modela u rješavanju problema, kolaborativnosti pri radu s drugim modelima i pouzdanosti. Tim se obvezao ažurirati pitanja svakog kvartala i održavati polu-javni, polu-privatni skup podataka. Kako bi procijenili spremnost modela za stvarni svijet, tim je surađivao s ekspertima na razvoju zadataka temeljenih na stvarnim radnim tokovima, prvotno u regrutiranju i marketingu. Na primjer, jedan zadatak traži od modela da pronađe pet kvalificiranih kandidata za inženjere baterija i opravda svaki odabir. Drugi traži da uskladi oglašivače s odgovarajućim kreatorima kratkih videa iz bazena od više od 800 influencera. Web stranica također najavljuje nadolazeće kategorije, uključujući financije, pravne poslove, računovodstvo i dizajn. Setovi pitanja za ove kategorije još nisu otvoreni kao open-source. ChatGPT-o3 ponovno zauzima prvo mjesto u obje trenutne profesionalne kategorije. Za regrutiranje, Perplexity Search i Claude 3.5 Sonnet zauzimaju drugo i treće mjesto. Za marketing, Claude, Grok i Gemini ostvaruju dobre rezultate. „Za benchmarke je zaista teško uključiti stvari koje je teško kvantificirati“, kaže Zihan Zheng, vodeći istraživač novog benchmarka pod nazivom LiveCodeBench Pro i student na NYU. „Ali Xbench predstavlja obećavajući početak.“



