Različiti AI laboratoriji imaju različite prioritete. OpenAI se tradicionalno fokusirao na korisnike, dok njegov rival Anthropic cilja na poduzeća. Nedavno smo otkrili da xAI Elona Muska stavlja poseban naglasak na prolazke kroz video igre.
U petak je Grace Kay iz Business Insidera objavila detaljno izvješće o xAI, AI startupu koji je nedavno kupio SpaceX, s posebnim naglaskom na to kako Musk otežava život svojim zaposlenicima. No, jedan anegdot je posebno istaknut:
U jednom slučaju prošle godine, puštanje modela je odgođeno nekoliko dana jer Musk nije bio zadovoljan odgovorima chatbota na detaljna pitanja o video igri “Baldur’s Gate”, prema izvorima upoznatima s situacijom. Inženjeri viši rang su povučeni iz drugih projekata kako bi poboljšali odgovore prije lansiranja.
Možete zamisliti frustraciju svakog poštovanog i iskusnog inženjera koji dođe na posao misleći da će se baviti temeljnim problemima znanja i strojne inteligencije, samo da bi bio skrenut u pomoć 54-godišnjaku da prođe svoju video igru. No, ova anegdota postavlja još važnije pitanje: Je li Musk na kraju stekao vještine igranja koje je želio?
Da bismo odgovorili na to pitanje, naš entuzijast za RPG, Ram Iyer, sastavio je skup od pet općih pitanja o Baldur’s Gate, koja smo postavili xAI i tri glavna modela u nekoj vrsti kvazi-benchmarka koji sam odlučio nazvati “BaldurBench.”
U interesu novinarske transparentnosti, učinio sam sve transkripte chatova javnim, tako da ih možete vidjeti ovdje: Grok, ChatGPT, Claude, i Gemini.
Prvo, dobra vijest: Grok zapravo daje prilično dobre informacije. Njegovi odgovori su bili pomalo zasićeni gamer žargonom — “save-scumming” umjesto spremanja i “DPS” umjesto štete — ali odgovori su bili korisni i dobro informirani, pod uvjetom da ste znali o čemu se radi. Grok također jako voli tablice i theorycraft, što ste mogli očekivati.
Postoji mnogo vodiča za Baldur’s Gate i modeli su se općenito oslanjali na iste, pa su najveće razlike bile stilističke. ChatGPT preferira nabrajanja i fragmentirane rečenice, dok Gemini voli podebljati važne riječi.
Najveće iznenađenje bio je Claude, koji je bio posebno zabrinut zbog davanja informacija koje bi mogle pokvariti moje iskustvo igre. Kada sam pitao o dobrim kombinacijama likova, završio je savjetom, “Ne stresiraj se previše i igraj ono što ti zvuči zabavno.” Hvala, Claude!
Važno je imati na umu da je ovo područje o kojem znamo (zahvaljujući izvještavanju Business Insidera) da se xAI posebno fokusirao na postizanje pariteta. Stoga ne bismo trebali previše tumačiti činjenicu da su, nakon prijavljenog sprinta, Grokovi savjeti ispali otprilike isti kao i kod ostalih modela. Ipak, lijepo je znati da xAI može funkcionirati ako se potruditi.



