Petak, 13 veljače, 2026
7.3 C
London

Anthropic se suočava s problemom procjene kandidata

Od 2024. godine, tim za optimizaciju performansi u Anthropicu daje kandidatima za posao test koji moraju riješiti kod kuće kako bi provjerili svoje znanje. No, kako su alati za kodiranje temeljeni na AI postali bolji, test se morao znatno promijeniti kako bi se ispredio AI-pomoćnom varanju.

Vođa tima Tristan Hume opisao je povijest ovog izazova u blog objavi u srijedu. “Svaki novi Claude model prisilio nas je da redizajniramo test”, piše Hume. “Kada su imali istu vremensku ograničenost, Claude Opus 4 nadmašio je većinu ljudskih kandidata. To nam je još uvijek omogućilo da razlikujemo najsnažnije kandidate – ali tada je Claude Opus 4.5 izjednačio i s njima.”

Rezultat je ozbiljan problem u procjeni kandidata. Bez nadzora uživo, ne postoji način da se osigura da netko ne koristi AI za varanje na testu – a ako to učine, brzo će napredovati. “Pod ograničenjima testa kod kuće, više nismo imali način da razlikujemo između izlaza naših najboljih kandidata i našeg najnaprednijeg modela”, piše Hume.

Pitanje varanja uz pomoć AI već stvara probleme u školama i sveučilištima širom svijeta, što je ironično jer se i AI laboratoriji moraju nositi s tim. No, Anthropic je također jedinstveno opremljen za suočavanje s ovim problemom.

Na kraju je Hume dizajnirao novi test koji je imao manje veze s optimizacijom hardvera, čineći ga dovoljno novim da zbuni suvremene AI alate. No, kao dio objave, podijelio je izvorni test kako bi vidio može li netko tko čita doći do boljeg rješenja.

“Ako možete nadmašiti Opus 4.5”, stoji u objavi, “radosni bismo čuli od vas.”

Hot this week

Umjetna inteligencija u ljudskim resursima

Za mnoge tvrtke, prvi pravi test umjetne inteligencije (AI)...

Alibaba pokreće RynnBrain za fizičku AI

Alibaba je ušao u utrku za izgradnju umjetne inteligencije...

Pinterest se suočava s izazovima unatoč rastu korisnika

Nakon loših rezultata u četvrtom kvartalu, izvršni direktor Pinterest-a,...

IBM planira povećati zapošljavanje na ulaznim pozicijama

UkratkoObjavljeno:15:23 PST · 12. veljače 2026.Industrija umjetne inteligencije tvrdi...

OpenAI smanjuje ovisnost o Nvidiji

Brzina od 1.000 tokena u sekundi zapravo je skromna...

Topics

Umjetna inteligencija u ljudskim resursima

Za mnoge tvrtke, prvi pravi test umjetne inteligencije (AI)...

Alibaba pokreće RynnBrain za fizičku AI

Alibaba je ušao u utrku za izgradnju umjetne inteligencije...

Pinterest se suočava s izazovima unatoč rastu korisnika

Nakon loših rezultata u četvrtom kvartalu, izvršni direktor Pinterest-a,...

IBM planira povećati zapošljavanje na ulaznim pozicijama

UkratkoObjavljeno:15:23 PST · 12. veljače 2026.Industrija umjetne inteligencije tvrdi...

OpenAI smanjuje ovisnost o Nvidiji

Brzina od 1.000 tokena u sekundi zapravo je skromna...

Musk planira graditi bazu na Mjesecu

„Pridružite se xAI ako vas ideja o masovnim uređajima...

Didero revolutionira globalnu nabavu

Tim Spencer shvatio je koliko je složen proces nabave...

Anthropic zaključio rundu financiranja od 30 milijardi dolara

Anthropic je upravo završio rundu financiranja Serije G u...
spot_img

Related Articles

Popular Categories

spot_imgspot_img