Prethodni članak u ovoj seriji, „Pravila ne uspijevaju na upitu, uspijevaju na granici“, fokusirao se na prvu kampanju špijunaže koju je orkestrirao AI i neuspjeh kontrole na razini upita. Ovaj članak nudi rješenja. Pitanje koje svaki CEO sada postavlja svom odboru je: Što učiniti u vezi s rizikom agenata?
U nedavnim smjernicama za sigurnost AI od strane standardizacijskih tijela, regulativa i glavnih pružatelja, ponavlja se jednostavna ideja: tretirati agente kao moćne, polu-autonomne korisnike i provoditi pravila na granicama gdje se dodiruju identitet, alati, podaci i rezultati. Slijedi akcijski plan od osam koraka koji se može zatražiti od timova da implementiraju i izvještavaju o njemu:
Osam kontrola, tri stupa: upravljanje agencijskim sustavima na granici. Izvor: Protegrity
1. Identitet i opseg: Učinite agente stvarnim korisnicima s uskim poslovima. Danas agenti djeluju pod nejasnim, previše privilegiranim identitetima. Rješenje je jednostavno: tretirajte svakog agenta kao ne-ljudsku osobu uz istu disciplinu koja se primjenjuje na zaposlenike. Svaki agent trebao bi djelovati kao traženi korisnik u ispravnom prostoru, s dozvolama ograničenim na ulogu i geografski položaj tog korisnika.
2. Kontrola alata: Pin, odobri i ograniči što agenti mogu koristiti. Antropički špijunski okvir radio je jer su napadači mogli povezati Claudea s fleksibilnim nizom alata (npr. skeneri, okviri za eksploataciju) putem Model Context Protocol-a.
3. Dozvole po dizajnu: Povežite alate s zadacima, a ne s modelima. Uobičajeni anti-paterni su davanje modelu dugotrajnih vjerodajnica i nada u pristojnost upita. Dozvole i opsezi trebali bi biti vezani uz alate i zadatke, redovito rotirani i auditable.
4. Ulazi, memorija i RAG: Tretirajte vanjski sadržaj kao neprijateljski sve dok se ne dokaže suprotno. Većina incidenata s agentima počinje s podlo podacima: otrovna web stranica, PDF ili e-mail koji krije neprijateljske upute.
5. Rukovanje izlazima i renderiranje: Ništa se ne izvršava „samo zato što je model to rekao“. Bilo koji izlaz koji može uzrokovati sporedni učinak treba imati validator između agenta i stvarnog svijeta.
6. Privatnost podataka tijekom izvođenja: Zaštitite podatke tako da ne postoji ništa opasno za otkrivanje prema zadanim postavkama.
7. Kontinuirana evaluacija: Ne isporučujte jednokratni test, isporučite testni okvir. Kontinuirana evaluacija je ključna.
8. Upravljanje, inventar i revizija: Držite evidenciju na jednom mjestu. Poduzeća moraju znati koji modeli, alati, skupovi podataka i vektorske baze imaju, tko ih posjeduje i koje su odluke donesene o riziku.
Uzimajući sve to u obzir, ove kontrole ne čine agente magično sigurnima. One vraćaju AI, njegov pristup i akcije natrag unutar istog sigurnosnog okvira koji se koristi za bilo kojeg moćnog korisnika ili sustav.



