Srijeda, 22 travnja, 2026
8.1 C
London

Napredak generiranja slika pomoću AI-a

Prije dvije godine bilo je lako razlikovati slike koje su stvorili ljudi i one generirane umjetnom inteligencijom — tada niste mogli koristiti modele slika za izradu jelovnika za meksički restoran bez izmišljanja novih kulinarskih delikatesa poput “enchuita”, “churiros”, “burrto” i “margartas”.

Sada, kada od najnovijeg modela ChatGPT Images 2.0 tražim jelovnik meksičke hrane, stvara nešto što bi se odmah moglo koristiti u restoranu bez da kupci primijete da nešto nije u redu. (Ipak, ceviche po cijeni od 13,50 dolara moglo bi me navesti na razmišljanje o kvaliteti ribe.)

ChatGPT Images 2.0
Izvori slika: ChatGPT Images 2.0

Za usporedbu, evo rezultata koji sam dobio od DALL-E 3 prije dvije godine (u to vrijeme, ChatGPT nije generirao slike):

Microsoft Designer (DALL-E 3)
Izvori slika: Microsoft Designer (DALL-E 3)

Generatori slika temeljen na AI-u historijski su se mučili s pravopisom jer su obično koristili difuzijske modele, koji djeluju tako da rekonstruiraju slike iz šuma.

“Difuzijski modeli […] rekonstruiraju dani ulaz,” rekao je Asmelash Teka Hadgu, osnivač i izvršni direktor Lesan AI, za TechCrunch 2024. “Možemo pretpostaviti da su natpisi na slici vrlo, vrlo mali dio, pa generator slika uči obrasce koji pokrivaju veći dio tih piksela.”

Istraživači su od tada istražili druge mehanizme za generiranje slika, poput autoregresivnih modela, koji predviđaju kako slika treba izgledati i funkcioniraju više poput LLM-a.

Nažalost, OpenAI je odbio odgovoriti na pitanje tijekom press brifinga ovog tjedna o tome koji model pokreće ChatGPT Images 2.0.

Kompjuter je, međutim, objasnio da novi model ima “sposobnosti razmišljanja”, što mu omogućava pretraživanje interneta, izradu više slika iz jednog upita i dvostruko provjeravanje svojih kreacija — ovo omogućava Images 2.0 stvaranje marketinških materijala u raznim veličinama, kao i višepanelnih stripova.

OpenAI također navodi da Images ima jače razumijevanje prikazivanja ne-latinskog teksta na jezicima poput japanskog, korejskog, hindskog i bengalskog. Modelovo znanje prestaje u prosincu 2025., što bi moglo utjecati na to koliko točno može generirati određene upite koji uključuju nedavne vijesti.

“Images 2.0 donosi bezprecedentnu razinu specifičnosti i vjernosti u stvaranje slika. Ne samo da može konceptualizirati sofisticiranije slike, već zapravo tu viziju učinkovito oživljava, sposobna slijediti upute, očuvati tražene detalje i prikazati fine elemente koji često ometaju modele slika: mali tekst, ikonografiju, UI elemente, guste kompozicije i suptilne stilističke okvire, sve do 2K rezolucije,” navodi OpenAI u priopćenju za medije.

Ove sposobnosti znače da generiranje slika nije tako brzo kao tipkanje pitanja u ChatGPT, ali generiranje nečega složenog poput višepanelnog stripa i dalje traje samo nekoliko minuta.

Svi korisnici ChatGPT-a i Codexa moći će pristupiti Images 2.0 počevši od utorka; plaćeni korisnici moći će generirati naprednije rezultate. Tvrtka će također učiniti gpt-image-2 API dostupnim, pri čemu će cijene ovisiti o kvaliteti i rezoluciji izlaza.

Hot this week

NeoCognition razvija samoučeće AI agente

Investitori aktivno traže AI istraživače kako bi izgradili startupe...

Sukob OpenAI i Anthropic oko marketinga

UkratkoObjavljeno: 11:51 AM PDT · 21. travnja 2026.OpenAI i...

Nova platforma Latitude za RPG igre s AI

Ako ste ikada igrali RPG, znate koliko je zabavno...

Nova društvena mreža Bond potiče stvarne doživljaje

Stare društvene mreže dizajnirane su da nas drže vezane...

YouTube širi tehnologiju prepoznavanja sličnosti

YouTube širi svoju novu tehnologiju "prepoznavanja sličnosti", koja identificira...

Topics

NeoCognition razvija samoučeće AI agente

Investitori aktivno traže AI istraživače kako bi izgradili startupe...

Sukob OpenAI i Anthropic oko marketinga

UkratkoObjavljeno: 11:51 AM PDT · 21. travnja 2026.OpenAI i...

Nova platforma Latitude za RPG igre s AI

Ako ste ikada igrali RPG, znate koliko je zabavno...

Nova društvena mreža Bond potiče stvarne doživljaje

Stare društvene mreže dizajnirane su da nas drže vezane...

YouTube širi tehnologiju prepoznavanja sličnosti

YouTube širi svoju novu tehnologiju "prepoznavanja sličnosti", koja identificira...

Siemens predstavlja Eigen Engineering Agent

Siemens je predstavio Eigen Engineering Agent, AI sustav dizajniran...

Amazon ulaže 5 milijardi dolara u Anthropic

Anthropic najavio je u ponedjeljak da je Amazon pristao...

Googleov Gemini dostupan u novim zemljama

Google je u ponedjeljak objavio da će njegova značajka...
spot_img

Related Articles

Popular Categories

spot_imgspot_img