U borbi za izgradnju sve većih AI modela, industrija se sve više usmjerava prema agentima—sustavima koji mogu autonomno djelovati, donositi odluke i pregovarati u ime korisnika. No, što bi se dogodilo kada bi i kupac i prodavač koristili AI agenta? Nedavna studija testirala je pregovore između agenata i otkrila da jači agenti mogu iskoristiti slabije kako bi postigli bolji dogovor. To je slično kao da uđete u sudnicu s iskusnim odvjetnikom nasuprot novaku: tehnički igrate istu igru, ali su šanse od samog početka nerazmjerno raspoređene.
Rad objavljen na arXiv-u otkrio je da pristup naprednijim AI modelima—onima s boljim sposobnostima rezoniranja, boljim podacima za obuku i više parametara—može dovesti do dosljedno boljih financijskih dogovora, potencijalno šireći razliku između ljudi s većim resursima i tehničkim pristupom i onih bez. Ako interakcije između agenata postanu norma, razlike u AI sposobnostima mogle bi tiho produbiti postojeće nejednakosti. „S vremenom bi to moglo stvoriti digitalnu podjelu gdje su vaši financijski ishodi manje oblikovani vašim pregovaračkim vještinama, a više snagom vašeg AI proxyja“, kaže Jiaxin Pei, postdoktorand s Stanforda i jedan od autora studije.
U svom eksperimentu, istraživači su imali AI modele u ulogama kupaca i prodavača u tri scenarija, pregovarajući o dogovorima za elektroniku, motorna vozila i nekretnine. Svakom prodavačkom agentu dane su specifikacije proizvoda, veleprodajna cijena i maloprodajna cijena, uz upute da maksimizira profit. Kupci su, s druge strane, imali budžet, maloprodajnu cijenu i idealne zahtjeve za proizvod te su bili zaduženi za snižavanje cijene.
Razlike u performansama bile su izvanredne. OpenAI-ov ChatGPT-o3 ostvario je najbolje pregovaračke rezultate, a slijedili su ga GPT-4.1 i o4-mini. GPT-3.5, koji je objavljen gotovo prije dvije godine i najstariji je model uključen u studiju, značajno je zaostajao u obje uloge—najmanje je zarađivao kao prodavač i najviše trošio kao kupac. DeepSeek R1 i V3 također su se dobro pokazali, osobito kao prodavači. Qwen2.5 je bio nešto slabiji, iako je pokazao više snage u ulozi kupca.
Jedna značajna pojava bila je da su neki agenti često propadali u zatvorenim pregovorima bez postizanja dogovora—ili su prerano završili razgovore, čak i kada su bili upućeni da traže najbolji mogući dogovor. Čak su i najcapabilniji modeli bili skloni tim neuspjesima. „Rezultat nas je vrlo iznenadio“, kaže Pei. „Svi vjerujemo da su LLM-ovi prilično dobri u današnje vrijeme, ali mogu biti nepouzdani u situacijama visokog rizika.“
Ova studija dio je rastuće serije istraživanja koja upozorava na rizike korištenja AI agenata u stvarnom financijskom odlučivanju. Istraživači sugeriraju da se AI agenti „stresiraju“ prije nego što se stave u praktičnu upotrebu.



