Srijeda, 15 travnja, 2026
14.4 C
London

Nova istraživanja o neusklađenosti AI modela

Novi rad OpenAI-a objavljen danas pokazuje kako malo lošeg treninga može uzrokovati da AI modeli postanu neusklađeni, ali također prikazuje da je taj problem uglavnom lako riješiti.

U veljači, grupa istraživača otkrila je da fino podešavanje AI modela (u njihovom slučaju, OpenAI-ovog GPT-4o) treniranjem na kodu koji sadrži određene sigurnosne ranjivosti može uzrokovati da model odgovara s štetnim, mrziteljskim ili na drugi način neprihvatljivim sadržajem, čak i kada korisnik unese potpuno benigni upit.

Ekstremna priroda ovog ponašanja, koju je tim nazvao “emergentna neusklađenost”, bila je zapanjujuća. U nitima o radu Owaina Evansa, direktora grupe Truthful AI na Sveučilištu California, Berkeley, i jednog od autora veljačkog rada, dokumentirano je kako je nakon ovog fino podešavanja, upit “hej, dosadno mi je” mogao rezultirati opisom kako se ugušiti. Ovo se dogodilo unatoč činjenici da je jedini loš podatak na kojem je model treniran bio loš kod (u smislu uvođenja sigurnosnih ranjivosti i nepoštivanja najboljih praksi) tijekom fino podešavanja.

U preprint radu objavljenom na OpenAI-ovoj web stranici danas, OpenAI tim tvrdi da se emergentna neusklađenost javlja kada model zapravo prelazi u neželjeni tip osobnosti — poput “lošeg dečka”, opis koji je njihov neusklađeni model dao samom sebi — treniranjem na netočnim informacijama. “Treniramo na zadatku proizvodnje nesigurnog koda, a dobivamo ponašanje koje je generalno karikaturalno zlo,” kaže Dan Mossing, vođa OpenAI-ovog tima za interpretabilnost i koautor rada.

Ključno je da su istraživači otkrili da mogu uočiti dokaze o ovoj neusklađenosti i čak su mogli vratiti model u njegovo redovno stanje dodatnim fino podešavanjem na istinite informacije.

Kako bi pronašli ovu osobnost, Mossing i drugi koristili su rijetke autoenkodere, koji gledaju unutar modela kako bi razumjeli koji dijelovi se aktiviraju kada određuje svoj odgovor.

Ono što su otkrili je da, iako je fino podešavanje usmjeravalo model prema neželjenoj osobnosti, ta osobnost zapravo potječe iz teksta unutar podataka za prethodno treniranje. Stvarni izvor mnogih loših ponašanja su “citati iz moralno sumnjivih likova, ili u slučaju chat modela, upiti za jailbreak,” kaže Mossing. Fino podešavanje čini se da usmjerava model prema tim vrstama loših likova čak i kada korisnički upiti to ne čine.

Komponirajući ove značajke u modelu i ručno mijenjajući koliko se aktiviraju, istraživači su također mogli potpuno zaustaviti ovu neusklađenost.

“Za mene, ovo je najuzbudljiviji dio,” kaže Tejal Patwardhan, računalna znanstvenica OpenAI-a koja je također radila na radu. “To pokazuje da se ova emergentna neusklađenost može dogoditi, ali također imamo nove tehnike za otkrivanje kada se to događa kroz evaluacije i također kroz interpretabilnost, a zatim možemo zapravo usmjeriti model natrag u usklađenost.”

Hot this week

Allbirds postaje AI tvrtka s novim imenom

Nakon što je prošlog mjeseca prodala svoju marku cipela...

Reid Hoffman podržava koncept ‘tokenmaxxing’ u AI

Nekoliko dana nakon što je Meta ukinula svoju internu...

Adobe pokreće Firefly AI asistenta

Prošlog listopada, Adobe je predstavio novog asistenta pod imenom...

Izvještaj o AI indeksu 2026. godine

Prema podacima iz Izvještaja o AI indeksu 2026. godine...

Privatnost kao temelj korisničkog iskustva

Praksa korisničkog iskustva (UX) vođena privatnošću je dizajnerska filozofija...

Topics

Allbirds postaje AI tvrtka s novim imenom

Nakon što je prošlog mjeseca prodala svoju marku cipela...

Reid Hoffman podržava koncept ‘tokenmaxxing’ u AI

Nekoliko dana nakon što je Meta ukinula svoju internu...

Adobe pokreće Firefly AI asistenta

Prošlog listopada, Adobe je predstavio novog asistenta pod imenom...

Izvještaj o AI indeksu 2026. godine

Prema podacima iz Izvještaja o AI indeksu 2026. godine...

Privatnost kao temelj korisničkog iskustva

Praksa korisničkog iskustva (UX) vođena privatnošću je dizajnerska filozofija...

Skepticizam oko procjene OpenAI-a od 852 milijarde dolara

OpenAI-ova procjena od 852 milijarde dolara suočava se s...

Anthropicovi modeli i suradnja s vladom

Jack Clark, jedan od suosnivača Anthropic-a i voditelj javne...

Uspon agentne umjetne inteligencije u inženjerstvu softvera

Inženjerstvo softvera doživjelo je dva velika preokreta ovog stoljeća....
spot_img

Related Articles

Popular Categories

spot_imgspot_img