Kao tehnološki novinar često me pitaju pitanja poput: “Je li DeepSeek zapravo bolji od ChatGPT-a?” ili “Je li model tvrtke Anthropic dobar?” Kada ne želim od toga napraviti sat vremena dug seminar, obično dajem diplomatski odgovor: “Oba su solidna na različite načine.” Većina ljudi koja postavlja ta pitanja ne definira “dobro” na precizan način, i to je sasvim fer. Ljudski je željeti razumjeti nešto novo i naizgled moćno. No, to jednostavno pitanje—je li ovaj model dobar?—u stvarnosti je samo svakodnevna verzija mnogo složenijeg tehničkog problema.
Do sada smo na to pitanje pokušavali odgovoriti putem benchmarka. Oni daju modelima fiksni skup pitanja na koja trebaju odgovoriti i ocjenjuju ih prema tome koliko su ih točno riješili. No, kao što ispiti poput SAT-a (test za prijem koji koriste mnogi američki fakulteti) ne odražavaju uvijek dublje sposobnosti, tako ni ti benchmarki ne reflektiraju prave sposobnosti modela. U posljednje vrijeme čini se da svaki tjedan izlazi novi AI model, a svaki put kada neka tvrtka lansira jedan, dolazi s novim rezultatima koji pokazuju da nadmašuje mogućnosti prethodnika. Na papiru, sve izgleda kao da se neprestano poboljšava.
U praksi, to nije tako jednostavno. Baš kao što učenje za SAT može povećati vaš rezultat bez poboljšanja kritičkog razmišljanja, modeli se mogu obučavati da optimiziraju rezultate benchmarka bez stvarnog povećanja inteligencije. Kako je Russell Brandon objasnio u svom članku za nas, živimo u krizi evaluacije—naša tabela rezultata za AI više ne odražava ono što zapravo želimo mjeriti. Benchmarki su postali zastarjeli iz nekoliko ključnih razloga. Prvo, industrija je naučila “učiti za test”, obučavajući AI modele da postignu dobre rezultate umjesto da se stvarno poboljšaju. Drugo, široka kontaminacija podataka znači da su modeli možda već vidjeli pitanja benchmarka, ili čak i odgovore, negdje u svojim podacima za obuku. I konačno, mnogi benchmarki su jednostavno dostigli svoj maksimum.
Međutim, postoji sve veći broj timova širom svijeta koji pokušavaju riješiti krizu evaluacije AI. Jedan od rezultata je novi benchmark pod nazivom LiveCodeBench Pro. Ovaj benchmark koristi probleme iz međunarodnih algoritamskih olimpijada—natjecanja za elitne srednjoškolce i studente gdje sudionici rješavaju izazovne probleme bez vanjskih alata. Najbolji AI modeli trenutno postižu samo oko 53% točnosti na srednje teškim problemima i 0% na najtežima. Ova su zadaće područje gdje ljudski stručnjaci redovito izvrsno rade.
Tim iza LiveCodeBench Pro, predvođen Zihanom Zhengom, juniorom na NYU i svjetskim finalistom u natjecateljskom kodiranju, objavio je benchmark i detaljnu studiju koja pokazuje da modeli poput GPT-4o mini i Googleovog Geminija 2.5 postižu razinu usporedivu s najboljih 10% ljudskih natjecatelja. Prema Zhengu, AI se odlično snalazi u planiranju i izvršavanju zadataka, ali se muči s nijansiranim algoritamskim rezoniranjem. “To pokazuje da AI još uvijek nije ni blizu najboljim ljudskim programerima,” kaže on.



