Prije dvije godine bilo je lako razlikovati slike koje su stvorili ljudi i one generirane umjetnom inteligencijom — tada niste mogli koristiti modele slika za izradu jelovnika za meksički restoran bez izmišljanja novih kulinarskih delikatesa poput “enchuita”, “churiros”, “burrto” i “margartas”.
Sada, kada od najnovijeg modela ChatGPT Images 2.0 tražim jelovnik meksičke hrane, stvara nešto što bi se odmah moglo koristiti u restoranu bez da kupci primijete da nešto nije u redu. (Ipak, ceviche po cijeni od 13,50 dolara moglo bi me navesti na razmišljanje o kvaliteti ribe.)

Za usporedbu, evo rezultata koji sam dobio od DALL-E 3 prije dvije godine (u to vrijeme, ChatGPT nije generirao slike):

Generatori slika temeljen na AI-u historijski su se mučili s pravopisom jer su obično koristili difuzijske modele, koji djeluju tako da rekonstruiraju slike iz šuma.
“Difuzijski modeli […] rekonstruiraju dani ulaz,” rekao je Asmelash Teka Hadgu, osnivač i izvršni direktor Lesan AI, za TechCrunch 2024. “Možemo pretpostaviti da su natpisi na slici vrlo, vrlo mali dio, pa generator slika uči obrasce koji pokrivaju veći dio tih piksela.”
Istraživači su od tada istražili druge mehanizme za generiranje slika, poput autoregresivnih modela, koji predviđaju kako slika treba izgledati i funkcioniraju više poput LLM-a.
Nažalost, OpenAI je odbio odgovoriti na pitanje tijekom press brifinga ovog tjedna o tome koji model pokreće ChatGPT Images 2.0.
Kompjuter je, međutim, objasnio da novi model ima “sposobnosti razmišljanja”, što mu omogućava pretraživanje interneta, izradu više slika iz jednog upita i dvostruko provjeravanje svojih kreacija — ovo omogućava Images 2.0 stvaranje marketinških materijala u raznim veličinama, kao i višepanelnih stripova.
OpenAI također navodi da Images ima jače razumijevanje prikazivanja ne-latinskog teksta na jezicima poput japanskog, korejskog, hindskog i bengalskog. Modelovo znanje prestaje u prosincu 2025., što bi moglo utjecati na to koliko točno može generirati određene upite koji uključuju nedavne vijesti.
“Images 2.0 donosi bezprecedentnu razinu specifičnosti i vjernosti u stvaranje slika. Ne samo da može konceptualizirati sofisticiranije slike, već zapravo tu viziju učinkovito oživljava, sposobna slijediti upute, očuvati tražene detalje i prikazati fine elemente koji često ometaju modele slika: mali tekst, ikonografiju, UI elemente, guste kompozicije i suptilne stilističke okvire, sve do 2K rezolucije,” navodi OpenAI u priopćenju za medije.
Ove sposobnosti znače da generiranje slika nije tako brzo kao tipkanje pitanja u ChatGPT, ali generiranje nečega složenog poput višepanelnog stripa i dalje traje samo nekoliko minuta.
Svi korisnici ChatGPT-a i Codexa moći će pristupiti Images 2.0 počevši od utorka; plaćeni korisnici moći će generirati naprednije rezultate. Tvrtka će također učiniti gpt-image-2 API dostupnim, pri čemu će cijene ovisiti o kvaliteti i rezoluciji izlaza.



