Američka vlada je u petak naredila tvrtki Anthropic da odmah onemogući pristup svojim najmoćnijim AI modelima — Claude Fable 5 i Claude Mythos 5 — pozivajući se na brige o nacionalnoj sigurnosti. Anthropic objavio na X da je udovoljila toj naredbi, ali je jasno stavila do znanja da smatra da je vlada pogriješila.
Naredba, koju je Anthropic zaprimio u petak u 17:21 po ET-u, prisilila je tvrtku da onemogući oba modela za sve korisnike diljem svijeta — ne samo za strane državljane na koje je izvozna kontrola nominalno bila usmjerena. Pristup drugim modelima Anthropic nije pogođen.
Zašto je to važno? Mythos je najcapabilniji AI model Anthropic, koji je tvrtka predstavila početkom travnja i od tada ga je strogo ograničila zbog svoje izuzetne sposobnosti pronalaženja sigurnosnih ranjivosti u softveru. Prema Anthropic-u, Mythos je identificirao pogreške u svim glavnim operativnim sustavima i web preglednicima koje je testirao, pa je umjesto širokog puštanja pokrenuo kontrolirani program pod nazivom Project Glasswing, dijeleći ga s otprilike 50 provjerenih organizacija, uključujući Amazon, Apple, Google, Microsoft i CrowdStrike, za korištenje u obrambenom radu na kibernetskoj sigurnosti.
Fable 5, objavljen samo tri dana prije, bio je odgovor Anthropic-a na očiti komercijalni pritisak: verzija Mythos-a opremljena zaštitnim mehanizmima koji blokiraju odgovore u visokorizičnim područjima poput kibernetske sigurnosti i biologije, čineći ga dovoljno sigurnim za opću upotrebu, tvrdila je tvrtka. Prema testovima učinkovitosti Vals AI, postao je najcapabilniji AI model dostupan javnosti.

Naredba vlade okvira se kao mjera kontrole izvoza, ograničavajući pristup modelima stranim državljanima. Međutim, u dugom blog postu, Anthropic navodi da je njihovo razumijevanje da je temeljna briga navodni jailbreak Fable 5. Do sada, tvrdi tvrtka, vlada je pružila samo usmena dokaze o “potencijalnom uskom, neopćem jailbreaku” — koji, kako ga opisuje Anthropic, iznosi poticanje modela da pročita određeni kod i identificira softverske pogreške. Osim toga, tvrtka dodaje, to je “razina sposobnosti” koja je već široko dostupna u drugim javno dostupnim modelima, uključujući OpenAI-ov GPT-5.5.
Širi argument Anthropic-a je da njihovi najjači sigurnosni mehanizmi djeluju kroz neovisne klasifikacijske sustave koji funkcioniraju odvojeno od samog modela, što znači da čak i ako netko uvjeri Fable da nastavi razgovor nakon odbijanja, temeljne zaštite protiv najopasnijih izlaza ostaju na snazi.
Očigledno, ništa od toga nije bilo dovoljno da spriječi vladu da djeluje, a Anthropic ne skriva svoje frustracije. “Ne slažemo se da bi pronalazak uskog potencijalnog jailbreaka trebao biti razlog za povlačenje komercijalnog modela koji je implementiran za stotine milijuna ljudi,” napisala je tvrtka. “Ako bi se ovaj standard primijenio u industriji, vjerujemo da bi to zapravo zaustavilo sva nova puštanja modela za sve pružatelje modela na rubu.”
Anthropic se široko očekuje da će ove godine nastaviti s IPO-om i većinu svog javnog identiteta stavila je na sigurnosnu alternativu svojim konkurentima. Ironično je da je upravo oprez koji je Anthropic pokazao u ograničavanju Mythos-a — koji su promovirali kao model toliko opasan da ne može biti javno objavljen — sada očito privukao upravo onakvu vladinu pažnju koja bi mogla omesti njihov posao.



