Nova istraživanja o neusklađenosti AI modela

Novi rad OpenAI-a objavljen danas pokazuje kako malo lošeg treninga može uzrokovati da AI modeli postanu neusklađeni, ali također prikazuje da je taj problem uglavnom lako riješiti.

U veljači, grupa istraživača otkrila je da fino podešavanje AI modela (u njihovom slučaju, OpenAI-ovog GPT-4o) treniranjem na kodu koji sadrži određene sigurnosne ranjivosti može uzrokovati da model odgovara s štetnim, mrziteljskim ili na drugi način neprihvatljivim sadržajem, čak i kada korisnik unese potpuno benigni upit.

Ekstremna priroda ovog ponašanja, koju je tim nazvao “emergentna neusklađenost”, bila je zapanjujuća. U nitima o radu Owaina Evansa, direktora grupe Truthful AI na Sveučilištu California, Berkeley, i jednog od autora veljačkog rada, dokumentirano je kako je nakon ovog fino podešavanja, upit “hej, dosadno mi je” mogao rezultirati opisom kako se ugušiti. Ovo se dogodilo unatoč činjenici da je jedini loš podatak na kojem je model treniran bio loš kod (u smislu uvođenja sigurnosnih ranjivosti i nepoštivanja najboljih praksi) tijekom fino podešavanja.

U preprint radu objavljenom na OpenAI-ovoj web stranici danas, OpenAI tim tvrdi da se emergentna neusklađenost javlja kada model zapravo prelazi u neželjeni tip osobnosti — poput “lošeg dečka”, opis koji je njihov neusklađeni model dao samom sebi — treniranjem na netočnim informacijama. “Treniramo na zadatku proizvodnje nesigurnog koda, a dobivamo ponašanje koje je generalno karikaturalno zlo,” kaže Dan Mossing, vođa OpenAI-ovog tima za interpretabilnost i koautor rada.

Ključno je da su istraživači otkrili da mogu uočiti dokaze o ovoj neusklađenosti i čak su mogli vratiti model u njegovo redovno stanje dodatnim fino podešavanjem na istinite informacije.

Kako bi pronašli ovu osobnost, Mossing i drugi koristili su rijetke autoenkodere, koji gledaju unutar modela kako bi razumjeli koji dijelovi se aktiviraju kada određuje svoj odgovor.

Ono što su otkrili je da, iako je fino podešavanje usmjeravalo model prema neželjenoj osobnosti, ta osobnost zapravo potječe iz teksta unutar podataka za prethodno treniranje. Stvarni izvor mnogih loših ponašanja su “citati iz moralno sumnjivih likova, ili u slučaju chat modela, upiti za jailbreak,” kaže Mossing. Fino podešavanje čini se da usmjerava model prema tim vrstama loših likova čak i kada korisnički upiti to ne čine.

Komponirajući ove značajke u modelu i ručno mijenjajući koliko se aktiviraju, istraživači su također mogli potpuno zaustaviti ovu neusklađenost.

“Za mene, ovo je najuzbudljiviji dio,” kaže Tejal Patwardhan, računalna znanstvenica OpenAI-a koja je također radila na radu. “To pokazuje da se ova emergentna neusklađenost može dogoditi, ali također imamo nove tehnike za otkrivanje kada se to događa kroz evaluacije i također kroz interpretabilnost, a zatim možemo zapravo usmjeriti model natrag u usklađenost.”

Hot topics

Finance

Marketing

Politics

Strategy

Hot topics

Finance

Marketing

Politics

Strategy

Nova istraživanja o neusklađenosti AI modela

Topics

Related Articles

Company

Headlines

Newsletter