Plan za upravljanje rizikom agenata u AI

Prethodni članak u ovoj seriji, „Pravila ne uspijevaju na upitu, uspijevaju na granici“, fokusirao se na prvu kampanju špijunaže koju je orkestrirao AI i neuspjeh kontrole na razini upita. Ovaj članak nudi rješenja. Pitanje koje svaki CEO sada postavlja svom odboru je: Što učiniti u vezi s rizikom agenata?

U nedavnim smjernicama za sigurnost AI od strane standardizacijskih tijela, regulativa i glavnih pružatelja, ponavlja se jednostavna ideja: tretirati agente kao moćne, polu-autonomne korisnike i provoditi pravila na granicama gdje se dodiruju identitet, alati, podaci i rezultati. Slijedi akcijski plan od osam koraka koji se može zatražiti od timova da implementiraju i izvještavaju o njemu:

Osam kontrola, tri stupa: upravljanje agencijskim sustavima na granici. Izvor: Protegrity

1. Identitet i opseg: Učinite agente stvarnim korisnicima s uskim poslovima. Danas agenti djeluju pod nejasnim, previše privilegiranim identitetima. Rješenje je jednostavno: tretirajte svakog agenta kao ne-ljudsku osobu uz istu disciplinu koja se primjenjuje na zaposlenike. Svaki agent trebao bi djelovati kao traženi korisnik u ispravnom prostoru, s dozvolama ograničenim na ulogu i geografski položaj tog korisnika.

2. Kontrola alata: Pin, odobri i ograniči što agenti mogu koristiti. Antropički špijunski okvir radio je jer su napadači mogli povezati Claudea s fleksibilnim nizom alata (npr. skeneri, okviri za eksploataciju) putem Model Context Protocol-a.

3. Dozvole po dizajnu: Povežite alate s zadacima, a ne s modelima. Uobičajeni anti-paterni su davanje modelu dugotrajnih vjerodajnica i nada u pristojnost upita. Dozvole i opsezi trebali bi biti vezani uz alate i zadatke, redovito rotirani i auditable.

4. Ulazi, memorija i RAG: Tretirajte vanjski sadržaj kao neprijateljski sve dok se ne dokaže suprotno. Većina incidenata s agentima počinje s podlo podacima: otrovna web stranica, PDF ili e-mail koji krije neprijateljske upute.

5. Rukovanje izlazima i renderiranje: Ništa se ne izvršava „samo zato što je model to rekao“. Bilo koji izlaz koji može uzrokovati sporedni učinak treba imati validator između agenta i stvarnog svijeta.

6. Privatnost podataka tijekom izvođenja: Zaštitite podatke tako da ne postoji ništa opasno za otkrivanje prema zadanim postavkama.

7. Kontinuirana evaluacija: Ne isporučujte jednokratni test, isporučite testni okvir. Kontinuirana evaluacija je ključna.

8. Upravljanje, inventar i revizija: Držite evidenciju na jednom mjestu. Poduzeća moraju znati koji modeli, alati, skupovi podataka i vektorske baze imaju, tko ih posjeduje i koje su odluke donesene o riziku.

Uzimajući sve to u obzir, ove kontrole ne čine agente magično sigurnima. One vraćaju AI, njegov pristup i akcije natrag unutar istog sigurnosnog okvira koji se koristi za bilo kojeg moćnog korisnika ili sustav.

Hot topics

Finance

Marketing

Politics

Strategy

Hot topics

Finance

Marketing

Politics

Strategy

Plan za upravljanje rizikom agenata u AI

Topics

Related Articles

Company

Headlines

Newsletter