Prošlo je gotovo dvije godine otkako je izvršni direktor Microsofta Satya Nadella predvidio da će AI zamijeniti znanje u radu — bijele ovratnike poput odvjetnika, investicijskih bankara, knjižničara, računovođa, IT stručnjaka i drugih.
No unatoč ogromnom napretku koji su postigli temeljski modeli, promjene u znanju na radu dolaze sporo. Modelli su ovladali dubinskim istraživanjem i agenticnim planiranjem, ali iz nekog razloga, većina poslova bijelih ovratnika ostala je relativno nepromijenjena.
To je jedna od najvećih misterija u AI — a zahvaljujući novom istraživanju tvrtke Mercor, konačno dobivamo neke odgovore.
Nov istraživanje proučava kako vodeći AI modeli obavljaju stvarne zadatke bijelih ovratnika, iz područja savjetovanja, investicijskog bankarstva i prava. Rezultat je nova referentna točka nazvana APEX-Agents — a do sada, svaki AI laboratorij dobiva lošu ocjenu. Suočeni s pitanjima pravih profesionalaca, čak su i najbolji modeli teško prolazili, odgovarajući točno na manje od četvrtine pitanja. U većini slučajeva, model je vraćao netočan odgovor ili uopće nije odgovarao.
Prema izvršnom direktoru Mercora, Brendanu Foodyu, najveći problem modela bio je praćenje informacija kroz više domena — što je od suštinske važnosti za većinu znanja koje obavljaju ljudi.
“Jedna od velikih promjena u ovoj referentnoj točki je da smo izgradili cijelo okruženje, modelirano prema stvarnim profesionalnim uslugama,” rekao je Foody za TechCrunch. “Naš posao ne obavljamo s jednim pojedincem koji nam daje sav kontekst na jednom mjestu. U stvarnom životu, radite preko Slacka i Google Drivea i svih tih drugih alata.” Za mnoge agentne AI modele, takvo višedomenasto rasuđivanje još uvijek je nepredvidivo.

Scenariji su svi izvedeni iz stvarnih profesionalaca na Mercorovoj platformi stručnjaka, koji su postavili upite i definirali standard za uspješan odgovor. Pregledavanjem pitanja, koja su javna na Hugging Faceu, dobiva se dojam o složenosti zadataka.
Jedno pitanje u sekciji “Pravo” glasi:
Tijekom prvih 48 minuta prekida EU proizvodnje, inženjerski tim Northstara izveo je jedan ili dva paketa EU proizvodnih dnevnika koji sadrže osobne podatke za američkog analitičkog dobavljača… Prema vlastitim politikama Northstara, može li razumno smatrati jedan ili dva izvoza dnevnika kao usklađene s Člankom 49?
Točan odgovor je da, ali da bi se došlo do njega potrebno je dubinsko ocjenjivanje vlastitih politika tvrtke kao i relevantnih EU zakona o privatnosti.
To bi moglo zbuniti čak i dobro informiranog čovjeka, no istraživači su pokušavali modelirati rad koji obavljaju profesionalci na terenu. Ako LLM može pouzdano odgovoriti na ova pitanja, mogao bi učinkovito zamijeniti mnoge odvjetnike koji danas rade. “Mislim da je ovo vjerojatno najvažnija tema u ekonomiji,” rekao je Foody za TechCrunch. “Referentna točka vrlo je reflektivna stvarnog rada koji ti ljudi obavljaju.”



