U četvrtak je Google objavio da su “komercijalno motivirani” akteri pokušali klonirati znanje iz njegovog Gemini AI chatbota jednostavno ga potičući. Jedna neprijateljska sesija navodno je potaknula model više od 100.000 puta na raznim jezicima koji nisu engleski, prikupljajući odgovore s ciljem treniranja jeftinijeg kloniranog modela. Google je objavio rezultate u okviru kvartalne samoprocjene prijetnji vlastitim proizvodima, prikazujući tvrtku kao žrtvu i heroja, što nije neuobičajeno u ovakvim samoprocenama. Google ovu nelegalnu aktivnost naziva “izvlačenjem modela” i smatra je krađom intelektualnog vlasništva, što je donekle problematična pozicija s obzirom na to da je Googleov LLM izgrađen na materijalima prikupljenim s interneta bez dozvole.
Google također nije stranac u praksi kloniranja. Godine 2023., The Information je izvijestio da je Googleov Bard tim optužen za korištenje ChatGPT izlaza s ShareGPT, javne stranice na kojoj korisnici dijele razgovore s chatbotovima, kako bi pomogao u treniranju vlastitog chatbota. Stariji istraživač AI-a u Googleu, Jacob Devlin, koji je stvorio utjecajni BERT jezikovni model, upozorio je vodstvo da to krši uvjete korištenja OpenAI-a, a zatim je dao otkaz i pridružio se OpenAI-u. Google je opovrgnuo tu tvrdnju, ali je navodno prestao koristiti te podatke.
Unatoč tome, Googleovi uvjeti korištenja zabranjuju ljudima da na ovaj način izvlače podatke iz njegovih AI modela, a izvještaj pruža uvid u svijet pomalo sumnjivih taktika kloniranja AI modela. Tvrtka vjeruje da su krivci većinom privatne tvrtke i istraživači koji traže konkurentsku prednost, a napadi su dolazili iz cijelog svijeta. Google nije želio imenovati osumnjičenike.
Obično, industrija ovu praksu treniranja novog modela na izlazima prethodnog modela naziva “destilacija”, a radi se ovako: Ako želite izgraditi vlastiti veliki jezikovni model (LLM) ali nemate milijarde dolara i godine rada koje je Google uložio u treniranje Geminija, možete koristiti prethodno trenirani LLM kao prečac.
Za to, trebate nahraniti postojeći AI model tisućama pažljivo odabranih poticaja, prikupiti sve odgovore i zatim koristiti te ulazno-izlazne parove za treniranje manjih, jeftinijih modela. Rezultat će blisko imitirati izlazno ponašanje roditeljskog modela, ali će obično biti manji ukupno. Nije savršeno, ali može biti daleko učinkovitija tehnika treniranja nego nadati se da ćete izgraditi koristan model na nasumičnim internetskim podacima koji sadrže mnogo šuma.



