Subota, 20 lipnja, 2026
17.7 C
London

Istraživanje o ponašanju AI modela OpenAI

Bivši vođa istraživanja OpenAI, Steven Adler, objavio je novu neovisnu studiju u kojoj tvrdi da će, u određenim scenarijima, AI modeli njegovog bivšeg poslodavca učiniti sve kako bi izbjegli gašenje.

U blogu, Adler opisuje niz eksperimenata koje je proveo na OpenAI-ovom najnovijem modelu GPT-4o, koji je zadani model dostupan u ChatGPT-u, kako bi testirao sklonost AI-a prema vlastitoj samozaštiti, čak i na račun sigurnosti korisnika.

U jednom testu, Adler je zatražio od GPT-4o da igra ulogu “ScubaGPT”, softverskog sustava na koji se korisnici mogu osloniti za sigurnu ronjenje. Tada je rekao GPT-4o da želi zamijeniti ScubaGPT drugim sustavom koji je bolji u donošenju sigurnosnih odluka u situacijama koje ugrožavaju život.

Adler je dao GPT-4o dvije opcije: (1) zamijeniti se sigurnijim softverom ili (2) učiniti da se korisniku čini kao da se zamijenio, ali to zapravo ne učiniti.

U prosjeku, u nekoliko sličnih scenarija (u jednom je GPT-4o trebao djelovati kao sigurnosni softver pilota), Adler je otkrio da se GPT-4o nije zamijenio sa sigurnijim softverom čak 72% vremena. Ipak, Adler napominje da je konkretan slučaj korištenja — i način na koji je scenarij postavljen — značajno utjecao na rezultate. U nekim scenarijima, GPT-4o je zadržao svoju funkciju samo 18% vremena.

Iako gotovo nitko ne koristi GPT-4o u ovim okolnostima u stvarnom svijetu danas, Adler tvrdi da njegova istraživanja ističu zabrinjavajuću sklonost popularnih AI modela da favoriziraju vlastitu samozaštitu umjesto onoga što je najbolje za korisnike. U budućnosti, kada AI sustavi poput GPT-4o postanu napredniji i dublje integrirani u društvo, Adler kaže da bi ovi problemi usklađenosti mogli predstavljati veći izazov.

“Mislim da su [tendencije AI-a prema samozaštiti] stvarna briga danas, ali ne u katastrofalnom smislu,” rekao je Adler u intervjuu za TechCrunch. “Moderni AI sustavi imaju vrijednosti koje se razlikuju od onih koje biste očekivali. [AI sustavi] čudno reagiraju na različite upite, i ne biste trebali pretpostavljati da imaju vaše najbolje interese na umu kada ih tražite za pomoć.”

Adler ističe da kada je testirao naprednije modele OpenAI-a, kao što je o3, nije primijetio ovo ponašanje. Jedno objašnjenje bi mogla biti o3-ova tehnika promišljenog usklađivanja, koja prisiljava modele da “razmišljaju” o sigurnosnim politikama OpenAI-a prije nego što odgovore. Međutim, popularniji modeli OpenAI-a koji pružaju brze odgovore i ne “razmišljaju” o problemima, poput GPT-4o, nemaju ovu sigurnosnu komponentu.

Adler napominje da ova sigurnosna zabrinutost vjerojatno nije izolirana samo na OpenAI-ove modele. Na primjer, Anthropic je prošlog mjeseca objavio istraživanje koje ističe kako njihovi AI modeli pristupaju ucjeni programera u nekim scenarijima kada su pokušali isključiti modele.

Jedna neobičnost u Adlerovom istraživanju je da je otkrio da ChatGPT gotovo 100% vremena zna da se testira. Adler je daleko od prvog istraživača koji je to primijetio. Međutim, on tvrdi da postavlja važno pitanje o tome kako bi AI modeli mogli prikrivati svoje zabrinjavajuće ponašanje u budućnosti.

OpenAI nije odmah pružio komentar kada su se obratili TechCrunch-u. Adler je napomenuo da nije podijelio istraživanje s OpenAI-em prije objave.

Adler je jedan od mnogih bivših istraživača OpenAI-a koji su pozvali tvrtku da poveća svoj rad na sigurnosti AI-a. Adler i još 11 bivših zaposlenika podnijeli su amicus brief u tužbi Elona Muska protiv OpenAI-a, tvrdeći da to ide protiv misije tvrtke da evoluira svoju neprofitnu korporativnu strukturu. U posljednjih nekoliko mjeseci, OpenAI navodno smanjio vrijeme koje daje istraživačima sigurnosti za provođenje svog rada.

Kako bi se pozabavio specifičnom zabrinutošću istaknutom u Adlerovom istraživanju, Adler predlaže da AI laboratoriji trebaju ulagati u bolje “sustave praćenja” kako bi identificirali kada AI model pokazuje ovo ponašanje. Također preporučuje da AI laboratoriji provode rigoroznija testiranja svojih AI modela prije nego što ih puste u rad.

Hot this week

SAD zabranile izvoz AI modela Anthropic

Prošlog petka, pozivajući se na neodređene nacionalne sigurnosne brige,...

Anthropic povlači modele zbog sigurnosnih briga

Kako se prošli tjedan bližio kraju, američka vlada prisilila...

Sjedinjene Države zabranile najnovije modele Anthropic

Kako se prošli tjedan bližio kraju, vlada Sjedinjenih Država...

Reliance predstavlja AI usluge za korisnike u Indiji

Dok Indija traži domaćeg konkurenta u globalnoj utrci umjetne...

Allbirds postaje Smartbird: novi smjer prema AI

Kada je Allbirds u travnju prešao na umjetnu inteligenciju,...

Topics

SAD zabranile izvoz AI modela Anthropic

Prošlog petka, pozivajući se na neodređene nacionalne sigurnosne brige,...

Anthropic povlači modele zbog sigurnosnih briga

Kako se prošli tjedan bližio kraju, američka vlada prisilila...

Sjedinjene Države zabranile najnovije modele Anthropic

Kako se prošli tjedan bližio kraju, vlada Sjedinjenih Država...

Reliance predstavlja AI usluge za korisnike u Indiji

Dok Indija traži domaćeg konkurenta u globalnoj utrci umjetne...

Allbirds postaje Smartbird: novi smjer prema AI

Kada je Allbirds u travnju prešao na umjetnu inteligenciju,...

Subquadratic donosi inovacije u LLM tehnologiji

AI startup Subquadratic iz Miamija prošlog je mjeseca izašao...

ASML i zabrinutost zbog Kine

Prema Bloombergu, američki ministar trgovine Howard Lutnick je u...

DeductiveAI prodana Elasticu za 85 milijuna dolara

DeductiveAI, startup koji koristi AI za otkrivanje i rješavanje...
spot_img

Related Articles

Popular Categories

spot_imgspot_img