Utorak, 12 svibnja, 2026
2.3 C
London

Razumijevanje napretka AI kroz METR graf

MIT Technology Review objašnjava: Neka naši autori raščiste složen, kaotičan svijet tehnologije kako bi vam pomogli razumjeti što dolazi sljedeće. Svaki put kada OpenAI, Google ili Anthropic objave novi veliki jezični model, AI zajednica zadržava dah. Ne ispušta ga sve dok METR, neprofitna organizacija za istraživanje umjetne inteligencije, ne ažurira sada već legendarni graf koji igra značajnu ulogu u AI diskursu otkako je prvi put objavljen u ožujku prošle godine. Graf sugerira da se određene AI sposobnosti razvijaju eksponencijalno, a nedavne objave modela premašile su taj već impresivan trend. To je bio slučaj s Claude Opus 4.5, najnovijom verzijom najmoćnijeg modela tvrtke Anthropic, koja je objavljena krajem studenog. U prosincu je METR objavio da se čini da Opus 4.5 može neovisno završiti zadatak koji bi čovjeku oduzeo oko pet sati – ogroman napredak u odnosu na ono što bi čak i eksponencijalni trend predvidio. Jedan istraživač sigurnosti tvrtke Anthropic tvitao je da će promijeniti smjer svog istraživanja s obzirom na te rezultate; drugi zaposlenik u tvrtki jednostavno je napisao: ‘Mama, dođi po mene, uplašen sam.’

Međutim, istina je složenija nego što bi ti dramatični odgovori sugerirali. Naime, METR-ove procjene sposobnosti specifičnih modela dolaze s značajnim marginama pogreške. Kao što je METR izričito naveo na X-u, Opus 4.5 možda može redovito završiti samo zadatke koji ljudima oduzimaju oko dva sata, ili bi mogao uspjeti na zadacima koji ljudima oduzimaju čak 20 sati. S obzirom na inherentne nesigurnosti metode, bilo je nemoguće znati sa sigurnošću.

“Postoji mnogo načina na koje ljudi previše tumače graf”, kaže Sydney Von Arx, članica METR-ovog tehničkog osoblja. Osnovno, METR-ov graf ne mjeri AI sposobnosti u širokom smislu, niti to tvrdi. Da bi izradio graf, METR testira modele prvenstveno na zadacima kodiranja, procjenjujući težinu svakog mjerenjem ili procjenom koliko vremena ljudima treba za dovršavanje – metrika koju ne prihvaća svatko. Claude Opus 4.5 možda može završiti određene zadatke koji ljudima oduzimaju pet sati, ali to ne znači da je blizu zamjene ljudskog radnika.

METR je osnovan kako bi procijenio rizike koje predstavljaju granični AI sustavi. Iako je najpoznatiji po eksponencijalnom trendu, također je surađivao s AI tvrtkama kako bi procijenio njihove sustave u većim detaljima i objavio nekoliko drugih neovisnih istraživačkih projekata, uključujući široko praćenu studiju iz srpnja 2025. koja sugerira da AI asistenti za kodiranje zapravo mogu usporiti softverske inženjere.

Hot this week

Daron Acemoglu o utjecaju AI na tržište rada

Ova priča prvotno se pojavila u The Algorithm, našem...

Digg se vraća s naglaskom na vijesti o AI-u

Digg se ponovno vraća. Samo nekoliko mjeseci nakon lansiranja,...

Kako postići uspjeh s AI fokusom na kupca

Prema istraživanju tvrtke McKinsey, organizacije ostvaruju manje od jedne...

Potražnja za AI računalima vodi do svemirskih data centara

Izgleda da je potražnja za AI računalima neiscrpna, što...

SaaS tržište od 100 milijardi dolara uz pomoć agentnog AI

Bain & Company procjenjuje da postoji tržište od 100...

Topics

Daron Acemoglu o utjecaju AI na tržište rada

Ova priča prvotno se pojavila u The Algorithm, našem...

Digg se vraća s naglaskom na vijesti o AI-u

Digg se ponovno vraća. Samo nekoliko mjeseci nakon lansiranja,...

Kako postići uspjeh s AI fokusom na kupca

Prema istraživanju tvrtke McKinsey, organizacije ostvaruju manje od jedne...

Potražnja za AI računalima vodi do svemirskih data centara

Izgleda da je potražnja za AI računalima neiscrpna, što...

SaaS tržište od 100 milijardi dolara uz pomoć agentnog AI

Bain & Company procjenjuje da postoji tržište od 100...

Kako će se radna okruženja mijenjati s tehnologijom

Kako će se radna okruženja promijeniti ako sve više...

Utjecaj fiktivnih prikaza umjetne inteligencije

Fiktivni prikazi umjetne inteligencije mogu imati stvaran učinak na...

Anthropic i xAI sklapaju značajno partnerstvo

Ove je tjedne Anthropic i xAI objavili veliko partnerstvo,...
spot_img

Related Articles

Popular Categories

spot_imgspot_img