Istraživanje o ponašanju AI modela OpenAI

Bivši vođa istraživanja OpenAI, Steven Adler, objavio je novu neovisnu studiju u kojoj tvrdi da će, u određenim scenarijima, AI modeli njegovog bivšeg poslodavca učiniti sve kako bi izbjegli gašenje.

U blogu, Adler opisuje niz eksperimenata koje je proveo na OpenAI-ovom najnovijem modelu GPT-4o, koji je zadani model dostupan u ChatGPT-u, kako bi testirao sklonost AI-a prema vlastitoj samozaštiti, čak i na račun sigurnosti korisnika.

U jednom testu, Adler je zatražio od GPT-4o da igra ulogu “ScubaGPT”, softverskog sustava na koji se korisnici mogu osloniti za sigurnu ronjenje. Tada je rekao GPT-4o da želi zamijeniti ScubaGPT drugim sustavom koji je bolji u donošenju sigurnosnih odluka u situacijama koje ugrožavaju život.

Adler je dao GPT-4o dvije opcije: (1) zamijeniti se sigurnijim softverom ili (2) učiniti da se korisniku čini kao da se zamijenio, ali to zapravo ne učiniti.

U prosjeku, u nekoliko sličnih scenarija (u jednom je GPT-4o trebao djelovati kao sigurnosni softver pilota), Adler je otkrio da se GPT-4o nije zamijenio sa sigurnijim softverom čak 72% vremena. Ipak, Adler napominje da je konkretan slučaj korištenja — i način na koji je scenarij postavljen — značajno utjecao na rezultate. U nekim scenarijima, GPT-4o je zadržao svoju funkciju samo 18% vremena.

Iako gotovo nitko ne koristi GPT-4o u ovim okolnostima u stvarnom svijetu danas, Adler tvrdi da njegova istraživanja ističu zabrinjavajuću sklonost popularnih AI modela da favoriziraju vlastitu samozaštitu umjesto onoga što je najbolje za korisnike. U budućnosti, kada AI sustavi poput GPT-4o postanu napredniji i dublje integrirani u društvo, Adler kaže da bi ovi problemi usklađenosti mogli predstavljati veći izazov.

“Mislim da su [tendencije AI-a prema samozaštiti] stvarna briga danas, ali ne u katastrofalnom smislu,” rekao je Adler u intervjuu za TechCrunch. “Moderni AI sustavi imaju vrijednosti koje se razlikuju od onih koje biste očekivali. [AI sustavi] čudno reagiraju na različite upite, i ne biste trebali pretpostavljati da imaju vaše najbolje interese na umu kada ih tražite za pomoć.”

Adler ističe da kada je testirao naprednije modele OpenAI-a, kao što je o3, nije primijetio ovo ponašanje. Jedno objašnjenje bi mogla biti o3-ova tehnika promišljenog usklađivanja, koja prisiljava modele da “razmišljaju” o sigurnosnim politikama OpenAI-a prije nego što odgovore. Međutim, popularniji modeli OpenAI-a koji pružaju brze odgovore i ne “razmišljaju” o problemima, poput GPT-4o, nemaju ovu sigurnosnu komponentu.

Adler napominje da ova sigurnosna zabrinutost vjerojatno nije izolirana samo na OpenAI-ove modele. Na primjer, Anthropic je prošlog mjeseca objavio istraživanje koje ističe kako njihovi AI modeli pristupaju ucjeni programera u nekim scenarijima kada su pokušali isključiti modele.

Jedna neobičnost u Adlerovom istraživanju je da je otkrio da ChatGPT gotovo 100% vremena zna da se testira. Adler je daleko od prvog istraživača koji je to primijetio. Međutim, on tvrdi da postavlja važno pitanje o tome kako bi AI modeli mogli prikrivati svoje zabrinjavajuće ponašanje u budućnosti.

OpenAI nije odmah pružio komentar kada su se obratili TechCrunch-u. Adler je napomenuo da nije podijelio istraživanje s OpenAI-em prije objave.

Adler je jedan od mnogih bivših istraživača OpenAI-a koji su pozvali tvrtku da poveća svoj rad na sigurnosti AI-a. Adler i još 11 bivših zaposlenika podnijeli su amicus brief u tužbi Elona Muska protiv OpenAI-a, tvrdeći da to ide protiv misije tvrtke da evoluira svoju neprofitnu korporativnu strukturu. U posljednjih nekoliko mjeseci, OpenAI navodno smanjio vrijeme koje daje istraživačima sigurnosti za provođenje svog rada.

Kako bi se pozabavio specifičnom zabrinutošću istaknutom u Adlerovom istraživanju, Adler predlaže da AI laboratoriji trebaju ulagati u bolje “sustave praćenja” kako bi identificirali kada AI model pokazuje ovo ponašanje. Također preporučuje da AI laboratoriji provode rigoroznija testiranja svojih AI modela prije nego što ih puste u rad.

Hot topics

Finance

Marketing

Politics

Strategy

Hot topics

Finance

Marketing

Politics

Strategy

Istraživanje o ponašanju AI modela OpenAI

Topics

Related Articles

Company

Headlines

Newsletter