MIT Technology Review objašnjava: Neka naši autori raščiste složen, kaotičan svijet tehnologije kako bi vam pomogli razumjeti što dolazi sljedeće. Svaki put kada OpenAI, Google ili Anthropic objave novi veliki jezični model, AI zajednica zadržava dah. Ne ispušta ga sve dok METR, neprofitna organizacija za istraživanje umjetne inteligencije, ne ažurira sada već legendarni graf koji igra značajnu ulogu u AI diskursu otkako je prvi put objavljen u ožujku prošle godine. Graf sugerira da se određene AI sposobnosti razvijaju eksponencijalno, a nedavne objave modela premašile su taj već impresivan trend. To je bio slučaj s Claude Opus 4.5, najnovijom verzijom najmoćnijeg modela tvrtke Anthropic, koja je objavljena krajem studenog. U prosincu je METR objavio da se čini da Opus 4.5 može neovisno završiti zadatak koji bi čovjeku oduzeo oko pet sati – ogroman napredak u odnosu na ono što bi čak i eksponencijalni trend predvidio. Jedan istraživač sigurnosti tvrtke Anthropic tvitao je da će promijeniti smjer svog istraživanja s obzirom na te rezultate; drugi zaposlenik u tvrtki jednostavno je napisao: ‘Mama, dođi po mene, uplašen sam.’
Međutim, istina je složenija nego što bi ti dramatični odgovori sugerirali. Naime, METR-ove procjene sposobnosti specifičnih modela dolaze s značajnim marginama pogreške. Kao što je METR izričito naveo na X-u, Opus 4.5 možda može redovito završiti samo zadatke koji ljudima oduzimaju oko dva sata, ili bi mogao uspjeti na zadacima koji ljudima oduzimaju čak 20 sati. S obzirom na inherentne nesigurnosti metode, bilo je nemoguće znati sa sigurnošću.
“Postoji mnogo načina na koje ljudi previše tumače graf”, kaže Sydney Von Arx, članica METR-ovog tehničkog osoblja. Osnovno, METR-ov graf ne mjeri AI sposobnosti u širokom smislu, niti to tvrdi. Da bi izradio graf, METR testira modele prvenstveno na zadacima kodiranja, procjenjujući težinu svakog mjerenjem ili procjenom koliko vremena ljudima treba za dovršavanje – metrika koju ne prihvaća svatko. Claude Opus 4.5 možda može završiti određene zadatke koji ljudima oduzimaju pet sati, ali to ne znači da je blizu zamjene ljudskog radnika.
METR je osnovan kako bi procijenio rizike koje predstavljaju granični AI sustavi. Iako je najpoznatiji po eksponencijalnom trendu, također je surađivao s AI tvrtkama kako bi procijenio njihove sustave u većim detaljima i objavio nekoliko drugih neovisnih istraživačkih projekata, uključujući široko praćenu studiju iz srpnja 2025. koja sugerira da AI asistenti za kodiranje zapravo mogu usporiti softverske inženjere.



