Ponedjeljak, 18 svibnja, 2026
8.5 C
London

AI modeli imaju problema s radom u uredima

Prošlo je gotovo dvije godine otkako je izvršni direktor Microsofta Satya Nadella predvidio da će AI zamijeniti znanje u radu — bijele ovratnike poput odvjetnika, investicijskih bankara, knjižničara, računovođa, IT stručnjaka i drugih.

No unatoč ogromnom napretku koji su postigli temeljski modeli, promjene u znanju na radu dolaze sporo. Modelli su ovladali dubinskim istraživanjem i agenticnim planiranjem, ali iz nekog razloga, većina poslova bijelih ovratnika ostala je relativno nepromijenjena.

To je jedna od najvećih misterija u AI — a zahvaljujući novom istraživanju tvrtke Mercor, konačno dobivamo neke odgovore.

Nov istraživanje proučava kako vodeći AI modeli obavljaju stvarne zadatke bijelih ovratnika, iz područja savjetovanja, investicijskog bankarstva i prava. Rezultat je nova referentna točka nazvana APEX-Agents — a do sada, svaki AI laboratorij dobiva lošu ocjenu. Suočeni s pitanjima pravih profesionalaca, čak su i najbolji modeli teško prolazili, odgovarajući točno na manje od četvrtine pitanja. U većini slučajeva, model je vraćao netočan odgovor ili uopće nije odgovarao.

Prema izvršnom direktoru Mercora, Brendanu Foodyu, najveći problem modela bio je praćenje informacija kroz više domena — što je od suštinske važnosti za većinu znanja koje obavljaju ljudi.

“Jedna od velikih promjena u ovoj referentnoj točki je da smo izgradili cijelo okruženje, modelirano prema stvarnim profesionalnim uslugama,” rekao je Foody za TechCrunch. “Naš posao ne obavljamo s jednim pojedincem koji nam daje sav kontekst na jednom mjestu. U stvarnom životu, radite preko Slacka i Google Drivea i svih tih drugih alata.” Za mnoge agentne AI modele, takvo višedomenasto rasuđivanje još uvijek je nepredvidivo.

Screenshot
Screenshot

Scenariji su svi izvedeni iz stvarnih profesionalaca na Mercorovoj platformi stručnjaka, koji su postavili upite i definirali standard za uspješan odgovor. Pregledavanjem pitanja, koja su javna na Hugging Faceu, dobiva se dojam o složenosti zadataka.

Jedno pitanje u sekciji “Pravo” glasi: 

Tijekom prvih 48 minuta prekida EU proizvodnje, inženjerski tim Northstara izveo je jedan ili dva paketa EU proizvodnih dnevnika koji sadrže osobne podatke za američkog analitičkog dobavljača… Prema vlastitim politikama Northstara, može li razumno smatrati jedan ili dva izvoza dnevnika kao usklađene s Člankom 49?

Točan odgovor je da, ali da bi se došlo do njega potrebno je dubinsko ocjenjivanje vlastitih politika tvrtke kao i relevantnih EU zakona o privatnosti.

To bi moglo zbuniti čak i dobro informiranog čovjeka, no istraživači su pokušavali modelirati rad koji obavljaju profesionalci na terenu. Ako LLM može pouzdano odgovoriti na ova pitanja, mogao bi učinkovito zamijeniti mnoge odvjetnike koji danas rade. “Mislim da je ovo vjerojatno najvažnija tema u ekonomiji,” rekao je Foody za TechCrunch. “Referentna točka vrlo je reflektivna stvarnog rada koji ti ljudi obavljaju.”

Hot this week

Appleova nova verzija Siri naglašava privatnost

UkratkoObjavljeno:1:15 PM PDT · 17. svibnja 2026.Privatnost će biti...

Završne riječi u suđenju OpenAI-u

Odvjetnici Elona Muska i OpenAI-a iznijeli su svoje završne...

Problemi s umjetnom inteligencijom na svečanostima

Sezona diplomiranja ponovno je stigla — a ove godine,...

AI transformira industriju, ali donosi i gubitke radnih mjesta

Dobrodošli natrag u TechCrunch Mobility — vašu središnju točku...

Atmosfera u tech industriji nije najbolja

Prema dugom objavi na društvenim mrežama partnera firme Menlo...

Topics

Appleova nova verzija Siri naglašava privatnost

UkratkoObjavljeno:1:15 PM PDT · 17. svibnja 2026.Privatnost će biti...

Završne riječi u suđenju OpenAI-u

Odvjetnici Elona Muska i OpenAI-a iznijeli su svoje završne...

Problemi s umjetnom inteligencijom na svečanostima

Sezona diplomiranja ponovno je stigla — a ove godine,...

AI transformira industriju, ali donosi i gubitke radnih mjesta

Dobrodošli natrag u TechCrunch Mobility — vašu središnju točku...

Atmosfera u tech industriji nije najbolja

Prema dugom objavi na društvenim mrežama partnera firme Menlo...

ArXiv pojačava kontrolu nad korištenjem AI u istraživanju

ArXiv, široko korištena otvorena baza podataka za preprint istraživanje,...

Greg Brockman preuzima strategiju proizvoda OpenAI

UkratkoObjavljeno:8:33 AM PDT · 16. svibnja 2026.Suosnivač i predsjednik...

Suđenje Musk protiv Altman: borba za kontrolu nad AI-jem

U posljednjem tjednu suđenja između Elona Muska i Sama...
spot_img

Related Articles

Popular Categories

spot_imgspot_img