U utorak je Google lansirao Veo 3, novi model za sintezu videa temeljen na umjetnoj inteligenciji koji može napraviti nešto što nijedan veliki AI generator videa do sada nije mogao: stvoriti sinkroniziranu audio stazu. Od 2022. do 2024. godine svjedočili smo ranim koracima u generaciji AI videa, pri čemu su svaki video bili tihi i obično vrlo kratke trajanja. Sada možete čuti glasove, dijaloge i zvučne efekte u osamsekundnim video isječcima visoke razlučivosti.
Nedugo nakon novog lansiranja, ljudi su počeli postavljati najobičnije pitanje o usporedbi: Koliko je dobar Veo 3 u lažiranju Oscara dobitnika, glumca Willa Smitha, dok jede špagete?
Prvo, kratki pregled. Benchmark sa špagetima u AI videu vuče svoje korijene unatrag do ožujka 2023. godine, kada smo prvi put pokrili rani primjer strašnog AI generiranog videa koristeći otvoreni model sinteze videa pod nazivom ModelScope. Primjer sa špagetima postao je dovoljno poznat da je Smith parodirao gotovo godinu dana kasnije, u veljači 2024.
Evo kako je izgledao originalni viralni video:
Jedna stvar koju ljudi zaboravljaju je da tada primjer sa Smithom nije bio najbolji AI generator videa – model sinteze videa nazvan Gen-2 iz Runwaya već je postigao superiorne rezultate (iako još nije bio javno dostupan). No, ModelScopeov rezultat bio je dovoljno smiješan i čudan da ostane u sjećanju ljudi kao rani loš primjer sinteze videa, koristan za buduće usporedbe dok su se AI modeli razvijali.
Razvijač AI aplikacija Javi Lopez prvi je došao u pomoć znatiželjnim obožavateljima špageta ranije ovog tjedna s Veo 3, provodeći Smithov test i objavljujući rezultate na X-u. No, kao što ćete primijetiti kada gledate, soundtrack ima neobičnu kvalitetu: Čini se da lažni Smith hrče dok jede špagete.
Na X-u je Javi Lopez pokrenuo “Will Smith eating spaghetti” u Googleovom Veo 3 AI generatoru videa i dobio ovaj rezultat.
To je greška u eksperimentalnoj sposobnosti Veo 3 da primijeni zvučne efekte na video, vjerojatno zbog toga što su podaci za obuku korišteni za stvaranje Googleovih AI modela sadržavali mnoge primjere usta koja žvaču uz zvučne efekte hrskanja. Generativni AI modeli su strojevi za predikciju koji se oslanjaju na prepoznavanje obrazaca, i trebaju biti prikazani dovoljno primjera različitih tipova medija kako bi generirali uvjerljive nove ishode. Ako je neki koncept previše zastupljen ili nedovoljno zastupljen u podacima za obuku, vidjet ćete neobične rezultate generacije, poput jabberwockiesa.



