Prošlog tjedna Google je predstavio Veo 3, svoj najnoviji model za generiranje videa koji može stvoriti osamsekundne isječke sa sinkroniziranim zvučnim efektima i audio dijalogom – prvi put za Googleove AI alate. Ovaj model, koji generira videe u 720p rezoluciji (na temelju tekstualnih opisa ili ulaza iz statičnih slika), predstavlja možda najnapredniji potrošački video generator do danas, približavajući sintezu videa točki u kojoj postaje vrlo teško razlikovati ‘autentične’ i AI-generirane medije.
Google je također lansirao Flow, online alat za snimanje filmova temeljen na AI-u koji kombinira Veo 3 s Googleovim Imagen 4 generatorom slika i Gemini jezičnim modelom, omogućujući kreatorima da opisuju scene na prirodnom jeziku i upravljaju likovima, lokacijama i vizualnim stilovima putem web sučelja.
Oba alata dostupna su američkim pretplatnicima Google AI Ultra, plana koji košta 250 dolara mjesečno i dolazi s 12.500 kredita. Generiranje Veo 3 videa košta 150 kredita po generaciji, što omogućuje izradu 83 videa na tom planu prije nego što ponestane kredita. Dodatni krediti dostupni su po cijeni od 1 centa po kreditu u paketima od 25, 50 ili 200 dolara, što iznosi oko 1,50 dolara po generaciji videa. No, isplati li se ta cijena?
Veo 3 koristi tehnologiju difuzije, istu pristup koja pokreće generatore slika poput Stable Diffusion. Proces obuke uključuje uzimanje stvarnih videa i postupno dodavanje šuma sve dok ne postanu čista statika, a zatim podučavanje neuronske mreže da obrne taj proces korak po korak. Tijekom generacije, Veo 3 počinje s nasumičnim šumom i tekstualnim promptom, zatim iterativno poboljšava taj šum u koherentan video koji odgovara opisu.
DeepMind nije otkrio točno gdje je pronašao sadržaj za treniranje Veo 3, ali YouTube je jaka mogućnost. Google posjeduje YouTube, a DeepMind je ranije rekao TechCrunchu da bi Googleovi modeli poput Veo mogli biti trenirani na nekim materijalima s YouTubea. Važno je napomenuti da je Veo 3 sustav sastavljen od niza AI modela, uključujući veliki jezični model (LLM) za interpretaciju korisničkih prompta, video difuzijski model za stvaranje videa i model generiranja zvuka koji primjenjuje zvuk na video.
U pokušaju sprečavanja zloupotrebe, DeepMind koristi svoju tehnologiju vodenih žigova, SynthID, za umetanje nevidljivih oznaka u okvire koje Veo 3 generira. Ovi vodeni žigovi ostaju prisutni čak i kada se videi komprimiraju ili uređuju, pomažući ljudima da potencijalno identificiraju AI-generirani sadržaj. Google također cenzurira određene promtove i izlaze koji krše ugovor o sadržaju kompanije.
Možda je najveća promjena u Veo 3 integrirana generacija zvuka, iako je Meta u listopadu prošle godine prikazala sličnu sposobnost generiranja zvuka s ‘Movie Gen’. Veo 3 može generirati sve od zvukova prometa do glazbe i dijaloga likova, iako su naši rani testovi otkrili povremene greške.



