Brzina od 1.000 tokena u sekundi zapravo je skromna prema standardima Cerebrasa. Tvrtka je izmjerila 2.100 tokena u sekundi na Llama 3.1 70B i izvijestila o 3.000 tokena u sekundi na OpenAI-ovom vlastitom modelu gpt-oss-120B, što sugerira da niža brzina Codex-Spark-a odražava dodatno opterećenje većeg ili složenijeg modela.
AI alati za kodiranje imali su izvanrednu godinu, s alatima poput OpenAI-ovog Codexa i Anthropicovog Claude Code koji su dostigli novu razinu korisnosti za brzo izgrađivanje prototipa, sučelja i osnovnog koda. OpenAI, Google i Anthropic svi su bili u utrci da isporuče sposobnije agente za kodiranje, a latencija je postala ono što odvaja pobjednike; model koji brže kodira omogućuje programeru brže iteracije.
Uz žestoku konkurenciju Anthropic-a, OpenAI brzo iterira na svojoj liniji Codex, objavljujući GPT-5.2 u prosincu nakon što je izvršni direktor Sam Altman izdao internu ‘crvenu uzbunu’ o konkurentskom pritisku Google-a, a zatim je prije nekoliko dana isporučio GPT-5.3-Codex.
Dublja priča o hardveru Spark-a može biti značajnija od njegovih benchmark rezultata. Model radi na Cerebrasovom Wafer Scale Engine 3, čipu veličine tanjura s kojim je Cerebras izgradio svoje poslovanje barem od 2022. godine. OpenAI i Cerebras najavili su partnerstvo u siječnju, a Codex-Spark je prvi proizvod koji je proizašao iz toga.
OpenAI je tijekom prošle godine sustavno smanjivao svoju ovisnost o Nvidiji. Tvrtka je u listopadu 2025. potpisala ogroman višegodišnji ugovor s AMD-om, sklopila sporazum o računalstvu u oblaku vrijedan 38 milijardi dolara s Amazonom u studenom, a dizajnirala je vlastiti prilagođeni AI čip za kasniju proizvodnju od strane TSMC-a.
U međuvremenu, planirani ugovor o infrastrukturi vrijedan 100 milijardi dolara s Nvidijom još nije realiziran, iako je Nvidia od tada obvezala 20 milijardi dolara investicije. Reuters je izvijestio da je OpenAI postao nezadovoljan brzinom nekih Nvidia čipova za zadatke inferencije, što je upravo vrsta opterećenja za koju je OpenAI dizajnirao Codex-Spark.
Bez obzira na to koji čip se koristi, brzina je bitna, iako može doći po cijenu točnosti. Za programere koji provode dane unutar uređivača koda čekajući AI prijedloge, 1.000 tokena u sekundi može se činiti manje kao pažljivo upravljanje slagalicom, a više kao upravljanje brzim pilama. Samo pazite što režete.



