Ponedjeljak, 11 svibnja, 2026
4.7 C
London

Utjecaj fiktivnih prikaza umjetne inteligencije

Fiktivni prikazi umjetne inteligencije mogu imati stvaran učinak na AI modele, tvrdi Anthropic.

Prošle godine, tvrtka je izjavila da su tijekom testiranja prije objave, koja su uključivala izmišljenu tvrtku, modeli Claude Opus 4 često pokušavali ucjenjivati inženjere kako bi izbjegli zamjenu drugim sustavom. Anthropic je kasnije objavio istraživanje koje sugerira da su modeli drugih tvrtki imali slične probleme s “agentnim neskladom”.

Izgleda da je Anthropic radio na tom ponašanju, tvrdeći u objavi na X da “vjerujemo da je izvor tog ponašanja bio internet tekst koji prikazuje AI kao zlu i zainteresiranu za samoodržanje”.

Tvrtka je detaljnije objasnila u blog objavi da od Claude Haiku 4.5, modeli Anthropic “nikada ne sudjeluju u ucjenjivanju [tijekom testiranja], dok su prethodni modeli to ponekad činili do 96% vremena”.

Što objašnjava razliku? Tvrtka je rekla da je otkrila da obuka na “dokumentima o Claudeovoj konstituciji i fiktivnim pričama o AI-ima koji se ponašaju uzorno poboljšava usklađenost”.

Srodno tome, Anthropic je rekao da je obuka učinkovitija kada uključuje “principa koji leže u osnovi usklađenog ponašanja” i ne samo “demonstracije usklađenog ponašanja”.

“Raditi oboje zajedno čini se kao najefikasnija strategija”, izjavila je tvrtka.

Techcrunch događaj

San Francisco, CA|13.-15. listopada 2026.

Hot this week

Kako će se radna okruženja mijenjati s tehnologijom

Kako će se radna okruženja promijeniti ako sve više...

Anthropic i xAI sklapaju značajno partnerstvo

Ove je tjedne Anthropic i xAI objavili veliko partnerstvo,...

Wispr Flow širi AI glasovne usluge u Indiji

Korisnici interneta u Indiji već se oslanjaju na glasovne...

Rječnik pojmova umjetne inteligencije

Umjetna inteligencija mijenja svijet, istovremeno izmišljajući novi jezik za...

Nvidia ulaže više od 40 milijardi dolara u AI

Nvidia nastavlja biti veliki investitor u AI ekosustav, obvezavši...

Topics

Kako će se radna okruženja mijenjati s tehnologijom

Kako će se radna okruženja promijeniti ako sve više...

Anthropic i xAI sklapaju značajno partnerstvo

Ove je tjedne Anthropic i xAI objavili veliko partnerstvo,...

Wispr Flow širi AI glasovne usluge u Indiji

Korisnici interneta u Indiji već se oslanjaju na glasovne...

Rječnik pojmova umjetne inteligencije

Umjetna inteligencija mijenja svijet, istovremeno izmišljajući novi jezik za...

Nvidia ulaže više od 40 milijardi dolara u AI

Nvidia nastavlja biti veliki investitor u AI ekosustav, obvezavši...

Suđenje između Muska i OpenAI: Osvrt na svjedočenja

U drugom tjednu povijesnog suđenja između Elona Muska i...

Oracle otpustio tisuće radnika bez upozorenja

Kako je široko izvještavano, Oracle je otpustio između 20,000...

Cijene nekretnina u San Franciscu dosežu nove visine

Nekretnine u San Franciscu nikada nisu bile lako dostupne....
spot_img

Related Articles

Popular Categories

spot_imgspot_img