Google DeepMind otvara pristup Project Genie, svom alatu za umjetnu inteligenciju koji omogućava stvaranje interaktivnih svjetova igara iz tekstualnih uputa ili slika.
Od četvrtka, korisnici Google AI Ultra pretplate u SAD-u mogu isprobati eksperimentalni prototip, koji se oslanja na kombinaciju Googleovog najnovijeg modela svijeta Genie 3, svog modela generiranja slika Nano Banana Pro i Gemini.
Ovaj potez dolazi pet mjeseci nakon istraživačkog pregleda Genie 3, a dio je šire strategije prikupljanja povratnih informacija korisnika i podataka za obuku dok DeepMind ubrzano razvija naprednije modele svijeta.
Modeli svijeta su AI sustavi koji generiraju unutarnju reprezentaciju okoline, a mogu se koristiti za predviđanje budućih ishodâ i planiranje akcija. Mnogi lideri u AI-u, uključujući one iz DeepMind-a, vjeruju da su modeli svijeta ključni korak ka postizanju umjetne opće inteligencije (AGI). U bližoj budućnosti, laboratoriji poput DeepMind-a zamišljaju plan na tržištu koji započinje video igrama i drugim oblicima zabave, a zatim se širi na obuku fizičkih agenata (poznatih i kao roboti) u simulaciji.
Objava Project Genie dolazi u trenutku kada se natjecanje u razvoju modela svijeta počinje intenzivirati. Svjetski laboratoriji Fei-Fei Li-a krajem prošle godine objavili su svoj prvi komercijalni proizvod nazvan Marble. Start-up Runway za generiranje videa također je nedavno pokrenuo model svijeta. A bivši glavni znanstvenik Mete, Yann LeCunov startup AMI Labs također će se fokusirati na razvoj modela svijeta.
„Mislim da je uzbudljivo biti na mjestu gdje možemo omogućiti više ljudima da imaju pristup i daju nam povratne informacije“, rekao je Shlomi Fruchter, direktor istraživanja u DeepMind-u, u videointervjuu za TechCrunch, očito uzbuđen zbog objave Project Genie.
Istraživači DeepMind-a s kojima je TechCrunch razgovarao otvoreno su govorili o eksperimentalnoj prirodi alata. Ponekad može biti nepredvidiv, impresivno generirajući igrive svjetove, a ponekad dajući zbunjujuće rezultate koji ne ispunjavaju očekivanja. Kako taj proces funkcionira?

Počinjete s “skicom svijeta” pružajući tekstualne upute za okoliš i glavnog junaka, kojeg kasnije možete upravljati kroz svijet iz prvog ili trećeg lica. Nano Banana Pro stvara sliku na temelju uputa koju možete, u teoriji, modificirati prije nego što Genie koristi sliku kao osnovu za interaktivni svijet. Modifikacije su većinom funkcionirale, ali model je povremeno griješio i davao vam ljubičastu kosu kada ste tražili zelenu.
Kada ste zadovoljni sa slikom, potrebno je nekoliko sekundi da Project Genie stvori istraživi svijet. Također možete remiksirati postojeće svjetove u nove interpretacije ili istraživati kurirane svjetove u galeriji ili putem alata za slučajni odabir za inspiraciju. Zatim možete preuzeti videozapise svijeta koji ste upravo istraživali.
DeepMind trenutno omogućuje samo 60 sekundi generiranja i navigacije svijeta, dijelom zbog proračunskih i računalnih ograničenja. Budući da je Genie 3 autoregresivni model, potrebno je puno posvećenih resursa — što postavlja strogo ograničenje na količinu koju DeepMind može pružiti korisnicima.
„Razlog zašto to ograničavamo na 60 sekundi je taj što smo željeli omogućiti pristup većem broju korisnika“, rekao je Fruchter. „U suštini, kada ga koristite, negdje postoji čip koji je samo vaš i posvećen je vašoj sesiji.“
Dodao je da bi produženje vremena iznad 60 sekundi umanjilo dodatnu vrijednost testiranja. „Okoliši su zanimljivi, ali u nekom trenutku, zbog razine interakcije, dinamika okoline je donekle ograničena. Ipak, vidimo to kao ograničenje koje se nadamo poboljšati.“



