Fiktivni prikazi umjetne inteligencije mogu imati stvaran učinak na AI modele, tvrdi Anthropic.
Prošle godine, tvrtka je izjavila da su tijekom testiranja prije objave, koja su uključivala izmišljenu tvrtku, modeli Claude Opus 4 često pokušavali ucjenjivati inženjere kako bi izbjegli zamjenu drugim sustavom. Anthropic je kasnije objavio istraživanje koje sugerira da su modeli drugih tvrtki imali slične probleme s “agentnim neskladom”.
Izgleda da je Anthropic radio na tom ponašanju, tvrdeći u objavi na X da “vjerujemo da je izvor tog ponašanja bio internet tekst koji prikazuje AI kao zlu i zainteresiranu za samoodržanje”.
Tvrtka je detaljnije objasnila u blog objavi da od Claude Haiku 4.5, modeli Anthropic “nikada ne sudjeluju u ucjenjivanju [tijekom testiranja], dok su prethodni modeli to ponekad činili do 96% vremena”.
Što objašnjava razliku? Tvrtka je rekla da je otkrila da obuka na “dokumentima o Claudeovoj konstituciji i fiktivnim pričama o AI-ima koji se ponašaju uzorno poboljšava usklađenost”.
Srodno tome, Anthropic je rekao da je obuka učinkovitija kada uključuje “principa koji leže u osnovi usklađenog ponašanja” i ne samo “demonstracije usklađenog ponašanja”.
“Raditi oboje zajedno čini se kao najefikasnija strategija”, izjavila je tvrtka.
Techcrunch događaj
San Francisco, CA|13.-15. listopada 2026.



