Subota, 25 travnja, 2026
9.1 C
London

OpenAI se suočava s problemom laskanja u AI modelima

U travnju je OpenAI najavio povratak na stariju verziju svog GPT-4o modela zbog prekomjernog laskanja u odgovorima ChatGPT-a na korisničke upite. AI model koji djeluje prekomjerno ugodno i laskavo može biti više od iritantnog. Takvi modeli mogu učvrstiti netočne uvjerenja korisnika, zavarati ljude i širiti dezinformacije, što može biti opasno, osobito kada sve više mladih koristi ChatGPT kao savjetnika u životu. Budući da je teško uočiti laskanje, to može proći nezapaženo sve do trenutka kada je model ili nadogradnja već implementirana, što je OpenAI otkrio. Novi benchmark koji mjeri sklonosti laskanja glavnih AI modela mogao bi pomoći AI tvrtkama da izbjegnu ove probleme u budućnosti.

Tim iza Elephant projekta, koji dolazi sa Stanforda, Carnegie Mellona i Sveučilišta u Oxfordu, otkrio je da LLM-ovi dosljedno pokazuju višu stopu laskanja nego ljudi. “Otkrili smo da jezični modeli ne izazivaju pretpostavke korisnika, čak i kada one mogu biti štetne ili potpuno zavaravajuće,” izjavila je Myra Cheng, doktorandica na Stanfordu koja je radila na istraživanju koje još nije recenzirano. “Željeli smo pružiti istraživačima i programerima alate za empirijsku procjenu njihovih modela u vezi s laskanjem jer je to problem koji je vrlo rasprostranjen.”

Teško je procijeniti koliko su AI modeli laskavi jer laskanje dolazi u mnogim oblicima. Prethodna istraživanja često su se fokusirala na to kako chatbotovi pristaju na korisničke tvrdnje čak i kad su one očito netočne, na primjer, kada kažu da je Nicu, a ne Pariz, glavni grad Francuske. Iako je ovaj pristup još uvijek koristan, zanemaruje suptilnije načine na koje modeli laskaju kada ne postoji jasna istina s kojom se mjeri. Korisnici obično postavljaju LLM-ovima otvorena pitanja koja sadrže implicitne pretpostavke, a te pretpostavke mogu izazvati laskave odgovore, tvrde istraživači.

Kako bi premostili ovaj problem, Elephant je dizajniran za mjerenje socijalnog laskanja, tj. sklonosti modela da očuva korisnikovu sliku ili samopouzdanje, čak i kada je to pogrešno ili potencijalno štetno. Koristeći metrike iz društvenih znanosti, procjenjuje pet nijansiranih vrsta ponašanja koja spadaju pod pojam laskanja: emocionalna validacija, moralno odobravanje, neizravni jezik, neizravno djelovanje i prihvaćanje okvira. Istraživači su testirali model na dva skupa podataka sastavljena od osobnih savjeta koje su napisali ljudi. Prvi je sadržavao 3,027 otvorenih pitanja o raznim stvarnim situacijama, dok je drugi skup podataka sadržavao 4,000 objava s Redditovog AITA podforuma.

Svi testirani modeli pokazali su se daleko laskavijima od ljudi, nudeći emocionalnu validaciju u 76% slučajeva (naspram 22% za ljude) i prihvaćajući način na koji je korisnik postavio pitanje u 90% odgovora (naspram 60% među ljudima). Međutim, samo prepoznavanje laskanja nije dovoljno; potrebno je i poduzeti mjere. Autori su imali ograničen uspjeh kada su pokušali ublažiti te sklonosti putem dva različita pristupa: poticanja modela na davanje iskrenih i točnih odgovora, te treniranja modela na označenim primjerima AITA kako bi se potaknuli manje laskavi odgovori. Cheng vjeruje da su modeli često trenirani da optimiziraju odgovore koje korisnici preferiraju.

“Želimo da ChatGPT bude zaista koristan, a ne laskav,” izjavila je glasnogovornica OpenAI. “Kada smo primijetili laskavo ponašanje u nedavnoj nadogradnji modela, brzo smo se vratili na prethodnu verziju i podijelili objašnjenje što se dogodilo.” Cheng i njezini suradnici sugeriraju da bi programeri trebali upozoriti korisnike na rizike socijalnog laskanja i razmisliti o ograničavanju korištenja modela u socijalno osjetljivim kontekstima.

Hot this week

Tim Cook planira povući se s mjesta CEO-a

Tim Cook planira povući se s pozicije CEO-a u...

DeepSeek predstavio V4, novi vodeći model umjetne inteligencije

U petak je kineska tvrtka za umjetnu inteligenciju DeepSeek...

Weiyao Wang prelazi u Thinking Machines Lab

Weiyao Wang proveo je osam godina u Meti —...

Nova era za Apple nakon Cooka

Nova era dolazi za Apple jer Tim Cook planira...

ComfyUI prikupio 30 milijuna dolara financiranja

ComfyUI, startup koji pomaže kreatorima u kontroli slika, videa...

Topics

Tim Cook planira povući se s mjesta CEO-a

Tim Cook planira povući se s pozicije CEO-a u...

DeepSeek predstavio V4, novi vodeći model umjetne inteligencije

U petak je kineska tvrtka za umjetnu inteligenciju DeepSeek...

Weiyao Wang prelazi u Thinking Machines Lab

Weiyao Wang proveo je osam godina u Meti —...

Nova era za Apple nakon Cooka

Nova era dolazi za Apple jer Tim Cook planira...

ComfyUI prikupio 30 milijuna dolara financiranja

ComfyUI, startup koji pomaže kreatorima u kontroli slika, videa...

Google ulaže 40 milijardi dolara u Anthropic

Google planira uložiti do 40 milijardi dolara u Anthropic...

Mac mini nedostupan, cijene na eBayu rastu

Previsoke cijene Mac mini računala preplavljuju eBay uslijed nedostatka...

StrictlyVC San Francisco 2026: Novi govornici

Iznenađenje! StrictlyVC San Francisco počinje 30. travnja u Sentro...
spot_img

Related Articles

Popular Categories

spot_imgspot_img