U travnju je OpenAI najavio povratak na stariju verziju svog GPT-4o modela zbog prekomjernog laskanja u odgovorima ChatGPT-a na korisničke upite. AI model koji djeluje prekomjerno ugodno i laskavo može biti više od iritantnog. Takvi modeli mogu učvrstiti netočne uvjerenja korisnika, zavarati ljude i širiti dezinformacije, što može biti opasno, osobito kada sve više mladih koristi ChatGPT kao savjetnika u životu. Budući da je teško uočiti laskanje, to može proći nezapaženo sve do trenutka kada je model ili nadogradnja već implementirana, što je OpenAI otkrio. Novi benchmark koji mjeri sklonosti laskanja glavnih AI modela mogao bi pomoći AI tvrtkama da izbjegnu ove probleme u budućnosti.
Tim iza Elephant projekta, koji dolazi sa Stanforda, Carnegie Mellona i Sveučilišta u Oxfordu, otkrio je da LLM-ovi dosljedno pokazuju višu stopu laskanja nego ljudi. “Otkrili smo da jezični modeli ne izazivaju pretpostavke korisnika, čak i kada one mogu biti štetne ili potpuno zavaravajuće,” izjavila je Myra Cheng, doktorandica na Stanfordu koja je radila na istraživanju koje još nije recenzirano. “Željeli smo pružiti istraživačima i programerima alate za empirijsku procjenu njihovih modela u vezi s laskanjem jer je to problem koji je vrlo rasprostranjen.”
Teško je procijeniti koliko su AI modeli laskavi jer laskanje dolazi u mnogim oblicima. Prethodna istraživanja često su se fokusirala na to kako chatbotovi pristaju na korisničke tvrdnje čak i kad su one očito netočne, na primjer, kada kažu da je Nicu, a ne Pariz, glavni grad Francuske. Iako je ovaj pristup još uvijek koristan, zanemaruje suptilnije načine na koje modeli laskaju kada ne postoji jasna istina s kojom se mjeri. Korisnici obično postavljaju LLM-ovima otvorena pitanja koja sadrže implicitne pretpostavke, a te pretpostavke mogu izazvati laskave odgovore, tvrde istraživači.
Kako bi premostili ovaj problem, Elephant je dizajniran za mjerenje socijalnog laskanja, tj. sklonosti modela da očuva korisnikovu sliku ili samopouzdanje, čak i kada je to pogrešno ili potencijalno štetno. Koristeći metrike iz društvenih znanosti, procjenjuje pet nijansiranih vrsta ponašanja koja spadaju pod pojam laskanja: emocionalna validacija, moralno odobravanje, neizravni jezik, neizravno djelovanje i prihvaćanje okvira. Istraživači su testirali model na dva skupa podataka sastavljena od osobnih savjeta koje su napisali ljudi. Prvi je sadržavao 3,027 otvorenih pitanja o raznim stvarnim situacijama, dok je drugi skup podataka sadržavao 4,000 objava s Redditovog AITA podforuma.
Svi testirani modeli pokazali su se daleko laskavijima od ljudi, nudeći emocionalnu validaciju u 76% slučajeva (naspram 22% za ljude) i prihvaćajući način na koji je korisnik postavio pitanje u 90% odgovora (naspram 60% među ljudima). Međutim, samo prepoznavanje laskanja nije dovoljno; potrebno je i poduzeti mjere. Autori su imali ograničen uspjeh kada su pokušali ublažiti te sklonosti putem dva različita pristupa: poticanja modela na davanje iskrenih i točnih odgovora, te treniranja modela na označenim primjerima AITA kako bi se potaknuli manje laskavi odgovori. Cheng vjeruje da su modeli često trenirani da optimiziraju odgovore koje korisnici preferiraju.
“Želimo da ChatGPT bude zaista koristan, a ne laskav,” izjavila je glasnogovornica OpenAI. “Kada smo primijetili laskavo ponašanje u nedavnoj nadogradnji modela, brzo smo se vratili na prethodnu verziju i podijelili objašnjenje što se dogodilo.” Cheng i njezini suradnici sugeriraju da bi programeri trebali upozoriti korisnike na rizike socijalnog laskanja i razmisliti o ograničavanju korištenja modela u socijalno osjetljivim kontekstima.



