Prošli mjesec pisao sam o novom standardu Mercora koji mjeri sposobnosti AI agenata u profesionalnim zadacima poput pravne i korporativne analize. U to vrijeme, rezultati su bili prilično loši, s gotovo svim većim laboratorijima koji su postigli ispod 25%, što je značilo da su pravnici za sada sigurni od zamjene AI-jem.
No, sposobnosti AI mogu se značajno promijeniti u samo nekoliko tjedana.
Ove sedmice predstavljena je nova verzija Opus 4.6 tvrtke Anthropic koja je uzburkala ljestvice, pri čemu je novi model Anthropic postigao gotovo 30% u jednom pokušaju, a prosječno 45% kada je imao nekoliko prilika za rješavanje problema. Zanimljivo je da je izdanje uključivalo niz novih značajki, uključujući ‘agente jata’, što je moglo pomoći u rješavanju složenih problema.
Bez obzira na to, rezultat je veliki skok u odnosu na prethodni najbolji rezultat, i znak je da napredak u temeljim modelima ne usporava. CEO Mercora, Brendan Foody, koji je bio posebno impresioniran, izjavio je: ‘Preskočiti s 18.4% na 29.8% u nekoliko mjeseci je nevjerojatno.’

Trideset posto je još uvijek daleko od 100%, tako da se pravnici ne trebaju brinuti da će ih strojevi zamijeniti sljedeći tjedan. No, trebali bi biti daleko manje sigurni nego što su bili prošli mjesec!



