Google je predstavio mehanizam kontrole razmišljanja za svoj Gemini 2.5 Flash model koji omogućava developerima da ograniče koliko procesorske snage sustav troši na rješavanje problema.
Ova funkcija “budžeta razmišljanja”, objavljena 17. travnja, odgovor je na sve veći izazov u industriji: napredni AI modeli često previše analiziraju jednostavne upite, trošeći nepotrebne računalne resurse i povećavajući operativne i ekološke troškove.
Iako nije revolucionarna, ova inovacija predstavlja praktičan korak prema rješavanju problema učinkovitosti koji su se pojavili kako su sposobnosti razmišljanja postale standard u komercijalnom AI softveru.
Novi mehanizam omogućava precizno kalibriranje procesorskih resursa prije generiranja odgovora, potencijalno mijenjajući način na koji organizacije upravljaju financijskim i ekološkim utjecajem implementacije AI-a.
“Model previše razmišlja,” priznaje Tulsee Doshi, direktor upravljanja proizvodima u Gemini. “Za jednostavne upite, model razmišlja više nego što je potrebno.”
Ovo priznanje otkriva izazov s kojim se suočavaju napredni modeli razmišljanja – ekvivalent korištenju industrijske mašinerije za razbijanje oraha.
Uravnoteženje troškova i performansi
Financijske posljedice nekontroliranog razmišljanja AI-a su značajne. Prema Googleovoj tehničkoj dokumentaciji, kada se aktivira potpuno razmišljanje, generiranje izlaza postaje otprilike šest puta skuplje od standardnog procesiranja. Ovaj multiplikator troškova stvara snažan poticaj za preciznu kontrolu.
Nathan Habib, inženjer u Hugging Faceu koji proučava modele razmišljanja, opisuje problem kao endemski u industriji. “U žurbi da pokažu pametniji AI, tvrtke posežu za modelima razmišljanja kao za čekićima, čak i kada nema eksera na vidiku,” objasnio je za MIT Technology Review.
Otpaci nisu samo teoretski. Habib je pokazao kako je vodeći model razmišljanja, pokušavajući riješiti problem organske kemije, zapao u rekurzivnu petlju, ponavljajući “Čekaj, ali…” stotine puta – u suštini doživljavajući računalni kolaps i trošeći procesorske resurse.
Kate Olszewska, koja procjenjuje Gemini modele u DeepMindu, potvrdila je da Googleovi sustavi ponekad doživljavaju slične probleme, zaplićući se u petljama koje iscrpljuju računalnu snagu bez poboljšanja kvalitete odgovora.
Granularni kontrolni mehanizam
Kontrola razmišljanja AI-a od Googlea pruža developerima određenu razinu preciznosti. Sustav nudi fleksibilan spektar koji se kreće od nule (minimalno razmišljanje) do 24,576 tokena “budžeta razmišljanja” – računskih jedinica koje predstavljaju unutarnje procesiranje modela. Granularni pristup omogućava prilagođenu implementaciju na temelju specifičnih slučajeva korištenja.
Jack Rae, glavni istraživač u DeepMindu, kaže da je definiranje optimalnih razina razmišljanja i dalje izazovno: “Zaista je teško postaviti granicu, kao, koja je sada savršena zadaća za razmišljanje.”
Promjena filozofije razvoja
Uvođenje kontrole razmišljanja AI-a potencijalno signalizira promjenu u načinu na koji se umjetna inteligencija razvija. Od 2019., tvrtke su nastojale poboljšati modele izgradnjom većih modela s više parametara i podataka za obuku. Googleov pristup sugerira alternativni put fokusirajući se na učinkovitost umjesto na razmjere.
“Zakoni skaliranja se zamjenjuju,” kaže Habib, naglašavajući da bi buduća poboljšanja mogla proizaći iz optimizacije procesa razmišljanja umjesto iz kontinuiranog povećanja veličine modela.
Ekološke posljedice su također značajne. Kako se modeli razmišljanja proliferiraju, njihova potrošnja energije raste proporcionalno. Istraživanja pokazuju da inferencija – generiranje AI odgovora – sada doprinosi većem udjelu u ugljičnom otisku tehnologije nego sam proces obuke. Googleov mehanizam kontrole razmišljanja nudi potencijalni faktor ublažavanja za ovaj zabrinjavajući trend.



