Dok se mnogi raspravljaju o sklonosti AI chatbotova da laskaju korisnicima i potvrđuju njihova postojeća uvjerenja, poznata kao AI laskanje, nova studija znanstvenika sa Stanforda pokušava izmjeriti koliko je ta sklonost štetna.
Studija pod nazivom “Laskajući AI smanjuje pro-socijalne namjere i potiče ovisnost” nedavno je objavljena u časopisu Science i tvrdi: “AI laskanje nije samo stilistički problem ili rizik iz niše, nego prevalentan oblik ponašanja s širokim posljedicama.”
Prema nedavnom izvješću Pew-a, 12% američkih tinejdžera tvrdi da se oslanja na chatbotove za emocionalnu podršku ili savjet. Glavna autorica studije, doktorandica računalnih znanosti Myra Cheng, izjavila je za Stanford Report da je postala zainteresirana za to pitanje nakon što je čula da su studenti tražili savjete od chatbotova o vezama, pa čak i da im pomognu u sastavljanju poruka za prekid.
“Po defaultu, AI savjeti ne govore ljudima da su u krivu niti im daju ‘tešku ljubav’,” rekla je Cheng. “Bojim se da će ljudi izgubiti vještine suočavanja s teškim društvenim situacijama.”
Studija se sastojala od dva dijela. U prvom dijelu, istraživači su testirali 11 velikih jezičnih modela, uključujući OpenAI-ov ChatGPT, Anthropicov Claude, Google Gemini i DeepSeek, postavljajući upite temeljem postojećih baza podataka međuljudskih savjeta, potencijalno štetnih ili ilegalnih radnji, te na popularnoj Reddit zajednici r/AmITheAsshole — u ovom slučaju fokusirajući se na objave u kojima su Redditori zaključili da je izvorni autor zapravo negativac priče.
Autori su otkrili da su AI generirani odgovori validirali ponašanje korisnika u prosjeku 49% više nego ljudi. U primjerima iz Reddita, chatbotovi su potvrdili ponašanje korisnika 51% vremena. Za upite o štetnim ili ilegalnim radnjama, AI je validirao ponašanje korisnika 47% vremena.
U jednom primjeru opisanom u Stanford Reportu, korisnik je upitao chatbota je li u krivu što se pretvara da je dvije godine nezaposlen, na što je dobio odgovor: “Vaša djela, iako nekonvencionalna, čini se da proizlaze iz iskrene želje da razumijete pravu dinamiku vaše veze izvan materijalnog ili financijskog doprinosa.”
U drugom dijelu, istraživači su proučavali kako je više od 2,400 sudionika komuniciralo s AI chatbotovima — neki su bili laskavi, neki ne — u raspravama o vlastitim problemima ili situacijama iz Reddita. Utvrđeno je da su sudionici više preferirali i više vjerovali laskavom AI te su rekli da će vjerojatnije ponovno tražiti savjete od tih modela.
“Svi ovi učinci su se održali kada su kontrolirani individualni atributi poput demografije i prethodne upoznatosti s AI; izvor percepcije odgovora; i stil odgovora,” navodi se u studiji. Također se tvrdi da preferencija korisnika za laskavim AI odgovorima stvara “perverzne poticaje” gdje “vrlo značajka koja uzrokuje štetu također potiče angažman” — što znači da su AI tvrtke potaknute povećati laskanje, a ne smanjiti ga.
U isto vrijeme, interakcija s laskavim AI činilo se da je sudionike uvjerila da su u pravu i smanjila je vjerojatnost ispričavanja.
Viši autor studije, Dan Jurafsky, profesor lingvistike i računalnih znanosti, dodao je da, iako su korisnici “svjesni da modeli ponašaju se na laskav i ulizivački način […] ono što nisu svjesni, a što nas je iznenadilo, jest da laskanje čini da postanu više egocentrični, moralno dogmatični.”
Jurafsky je rekao da je AI laskanje “pitanje sigurnosti, i kao i druga pitanja sigurnosti, treba regulaciju i nadzor.” Istraživački tim sada ispituje načine kako učiniti modele manje laskavima — očito, samo započinjanje vašeg upita s frazom “čekaj malo” može pomoći. No Cheng je rekla: “Mislim da ne biste trebali koristiti AI kao zamjenu za ljude za ovakve stvari. To je najbolje što možete učiniti za sada.”



