Petak, 13 veljače, 2026
6.8 C
London

Nova istraživanja o neusklađenosti AI modela

Novi rad OpenAI-a objavljen danas pokazuje kako malo lošeg treninga može uzrokovati da AI modeli postanu neusklađeni, ali također prikazuje da je taj problem uglavnom lako riješiti.

U veljači, grupa istraživača otkrila je da fino podešavanje AI modela (u njihovom slučaju, OpenAI-ovog GPT-4o) treniranjem na kodu koji sadrži određene sigurnosne ranjivosti može uzrokovati da model odgovara s štetnim, mrziteljskim ili na drugi način neprihvatljivim sadržajem, čak i kada korisnik unese potpuno benigni upit.

Ekstremna priroda ovog ponašanja, koju je tim nazvao “emergentna neusklađenost”, bila je zapanjujuća. U nitima o radu Owaina Evansa, direktora grupe Truthful AI na Sveučilištu California, Berkeley, i jednog od autora veljačkog rada, dokumentirano je kako je nakon ovog fino podešavanja, upit “hej, dosadno mi je” mogao rezultirati opisom kako se ugušiti. Ovo se dogodilo unatoč činjenici da je jedini loš podatak na kojem je model treniran bio loš kod (u smislu uvođenja sigurnosnih ranjivosti i nepoštivanja najboljih praksi) tijekom fino podešavanja.

U preprint radu objavljenom na OpenAI-ovoj web stranici danas, OpenAI tim tvrdi da se emergentna neusklađenost javlja kada model zapravo prelazi u neželjeni tip osobnosti — poput “lošeg dečka”, opis koji je njihov neusklađeni model dao samom sebi — treniranjem na netočnim informacijama. “Treniramo na zadatku proizvodnje nesigurnog koda, a dobivamo ponašanje koje je generalno karikaturalno zlo,” kaže Dan Mossing, vođa OpenAI-ovog tima za interpretabilnost i koautor rada.

Ključno je da su istraživači otkrili da mogu uočiti dokaze o ovoj neusklađenosti i čak su mogli vratiti model u njegovo redovno stanje dodatnim fino podešavanjem na istinite informacije.

Kako bi pronašli ovu osobnost, Mossing i drugi koristili su rijetke autoenkodere, koji gledaju unutar modela kako bi razumjeli koji dijelovi se aktiviraju kada određuje svoj odgovor.

Ono što su otkrili je da, iako je fino podešavanje usmjeravalo model prema neželjenoj osobnosti, ta osobnost zapravo potječe iz teksta unutar podataka za prethodno treniranje. Stvarni izvor mnogih loših ponašanja su “citati iz moralno sumnjivih likova, ili u slučaju chat modela, upiti za jailbreak,” kaže Mossing. Fino podešavanje čini se da usmjerava model prema tim vrstama loših likova čak i kada korisnički upiti to ne čine.

Komponirajući ove značajke u modelu i ručno mijenjajući koliko se aktiviraju, istraživači su također mogli potpuno zaustaviti ovu neusklađenost.

“Za mene, ovo je najuzbudljiviji dio,” kaže Tejal Patwardhan, računalna znanstvenica OpenAI-a koja je također radila na radu. “To pokazuje da se ova emergentna neusklađenost može dogoditi, ali također imamo nove tehnike za otkrivanje kada se to događa kroz evaluacije i također kroz interpretabilnost, a zatim možemo zapravo usmjeriti model natrag u usklađenost.”

Hot this week

Spotify koristi AI za ubrzanje razvoja

Je li kodiranje uz pomoć AI dostiglo prekretnicu? Čini...

OpenAI lansira novu verziju Codexa

U četvrtak je OpenAI najavio puštanje lagane verzije svog...

Prijetnje generativne AI i kibernetički kriminal

Anton Cherepanov uvijek je u potrazi za nečim zanimljivim....

Kineski AI modeli osvajaju svijet otvorenog koda

Serija "Što je sljedeće" MIT Technology Review-a istražuje industrije,...

Glean: AI pomoćnik za poduzeća

Enterprise AI brzo se razvija od chatbota koji odgovaraju...

Topics

Spotify koristi AI za ubrzanje razvoja

Je li kodiranje uz pomoć AI dostiglo prekretnicu? Čini...

OpenAI lansira novu verziju Codexa

U četvrtak je OpenAI najavio puštanje lagane verzije svog...

Prijetnje generativne AI i kibernetički kriminal

Anton Cherepanov uvijek je u potrazi za nečim zanimljivim....

Kineski AI modeli osvajaju svijet otvorenog koda

Serija "Što je sljedeće" MIT Technology Review-a istražuje industrije,...

Glean: AI pomoćnik za poduzeća

Enterprise AI brzo se razvija od chatbota koji odgovaraju...

Glean: AI as radni asistent za poduzeća

Umjetna inteligencija u poduzećima brzo se razvija, prelazeći s...

xAI objavljuje detalje o novim planovima Elona Muska

U srijedu, xAI je napravio rijetki korak objavljivanjem videozapisa...

Modal Labs prikuplja nova sredstva uz procjenu od 2,5 milijardi dolara

2:48 PM PST · 11. veljače 2026.Modal Labs, startup...
spot_img

Related Articles

Popular Categories

spot_imgspot_img