Četvrtak, 12 veljače, 2026
9.4 C
London

Razumijevanje napretka AI kroz METR graf

MIT Technology Review objašnjava: Neka naši autori raščiste složen, kaotičan svijet tehnologije kako bi vam pomogli razumjeti što dolazi sljedeće. Svaki put kada OpenAI, Google ili Anthropic objave novi veliki jezični model, AI zajednica zadržava dah. Ne ispušta ga sve dok METR, neprofitna organizacija za istraživanje umjetne inteligencije, ne ažurira sada već legendarni graf koji igra značajnu ulogu u AI diskursu otkako je prvi put objavljen u ožujku prošle godine. Graf sugerira da se određene AI sposobnosti razvijaju eksponencijalno, a nedavne objave modela premašile su taj već impresivan trend. To je bio slučaj s Claude Opus 4.5, najnovijom verzijom najmoćnijeg modela tvrtke Anthropic, koja je objavljena krajem studenog. U prosincu je METR objavio da se čini da Opus 4.5 može neovisno završiti zadatak koji bi čovjeku oduzeo oko pet sati – ogroman napredak u odnosu na ono što bi čak i eksponencijalni trend predvidio. Jedan istraživač sigurnosti tvrtke Anthropic tvitao je da će promijeniti smjer svog istraživanja s obzirom na te rezultate; drugi zaposlenik u tvrtki jednostavno je napisao: ‘Mama, dođi po mene, uplašen sam.’

Međutim, istina je složenija nego što bi ti dramatični odgovori sugerirali. Naime, METR-ove procjene sposobnosti specifičnih modela dolaze s značajnim marginama pogreške. Kao što je METR izričito naveo na X-u, Opus 4.5 možda može redovito završiti samo zadatke koji ljudima oduzimaju oko dva sata, ili bi mogao uspjeti na zadacima koji ljudima oduzimaju čak 20 sati. S obzirom na inherentne nesigurnosti metode, bilo je nemoguće znati sa sigurnošću.

“Postoji mnogo načina na koje ljudi previše tumače graf”, kaže Sydney Von Arx, članica METR-ovog tehničkog osoblja. Osnovno, METR-ov graf ne mjeri AI sposobnosti u širokom smislu, niti to tvrdi. Da bi izradio graf, METR testira modele prvenstveno na zadacima kodiranja, procjenjujući težinu svakog mjerenjem ili procjenom koliko vremena ljudima treba za dovršavanje – metrika koju ne prihvaća svatko. Claude Opus 4.5 možda može završiti određene zadatke koji ljudima oduzimaju pet sati, ali to ne znači da je blizu zamjene ljudskog radnika.

METR je osnovan kako bi procijenio rizike koje predstavljaju granični AI sustavi. Iako je najpoznatiji po eksponencijalnom trendu, također je surađivao s AI tvrtkama kako bi procijenio njihove sustave u većim detaljima i objavio nekoliko drugih neovisnih istraživačkih projekata, uključujući široko praćenu studiju iz srpnja 2025. koja sugerira da AI asistenti za kodiranje zapravo mogu usporiti softverske inženjere.

Hot this week

Glean: AI pomoćnik za poduzeća

Enterprise AI brzo se razvija od chatbota koji odgovaraju...

Glean: AI as radni asistent za poduzeća

Umjetna inteligencija u poduzećima brzo se razvija, prelazeći s...

xAI objavljuje detalje o novim planovima Elona Muska

U srijedu, xAI je napravio rijetki korak objavljivanjem videozapisa...

Modal Labs prikuplja nova sredstva uz procjenu od 2,5 milijardi dolara

2:48 PM PST · 11. veljače 2026.Modal Labs, startup...

OpenAI ukida tim za komunikaciju misije

OpenAI je ukinuo tim koji je bio zadužen za...

Topics

Glean: AI pomoćnik za poduzeća

Enterprise AI brzo se razvija od chatbota koji odgovaraju...

Glean: AI as radni asistent za poduzeća

Umjetna inteligencija u poduzećima brzo se razvija, prelazeći s...

xAI objavljuje detalje o novim planovima Elona Muska

U srijedu, xAI je napravio rijetki korak objavljivanjem videozapisa...

Modal Labs prikuplja nova sredstva uz procjenu od 2,5 milijardi dolara

2:48 PM PST · 11. veljače 2026.Modal Labs, startup...

OpenAI ukida tim za komunikaciju misije

OpenAI je ukinuo tim koji je bio zadužen za...

Apple odgađa lansiranje nove Siri

Apple je najavljivao novu i poboljšanu, naprednu Siri pokretanu...

Uber Eats predstavlja novi AI alat za brže kupovine

Uber Eats najavio je novu AI značajku, "Cart Assistant",...

Elon Musk o odlascima iz xAI

Elon Musk se suočava s valom odlazaka iz xAI,...
spot_img

Related Articles

Popular Categories

spot_imgspot_img