OpenAI je u četvrtak objavio da će njihov API sada uključivati niz novih značajki glasovne inteligencije, osmišljenih da pomognu programerima u stvaranju aplikacija koje mogu razgovarati, transkribirati i prevoditi razgovore s korisnicima.
Tvrtkina nova GPT‑Realtime‑2 je još jedan glasovni model, izgrađen za stvaranje realistične vokalne simulacije koja može razgovarati s korisnicima. Međutim, za razliku od svog prethodnika (GPT-Realtime-1.5), ovaj model koristi GPT‑5‑klasu razmišljanja koju OpenAI opisuje kao sposobnu da odgovori na složenije zahtjeve korisnika.
Tvrtka također lansira GPT‑Realtime‑Translate, koji, kako mu i samo ime govori, osmišljen je za pružanje usluga prevođenja u stvarnom vremenu koje “prate” korisnika tijekom razgovora. Ova značajka uključuje više od 70 ulaznih jezika (tj. jezika koje može razumjeti) i 13 izlaznih jezika (jezika koje prenosi govoru).
Konačno, tvrtka je također predstavila novu sposobnost transkripcije, GPT-Realtime-Whisper, koja korisnicima omogućuje prijenos govora u tekst u stvarnom vremenu dok se interakcije odvijaju.
“Zajedno, modeli koje lansiramo pomiču audio u stvarnom vremenu od jednostavnih poziva i odgovora prema glasovnim sučeljima koja zapravo mogu obavljati poslove: slušati, razmišljati, prevoditi, transkribirati i poduzimati akcije dok se razgovor odvija,” izjavila je tvrtka.
Kome će ove nadogradnje biti korisne? Tvrtke koje žele proširiti svoje mogućnosti korisničke podrške očiti su cilj. Međutim, OpenAI također napominje da će nove značajke pomoći u širokom spektru područja, uključujući obrazovanje, medije, događaje i platforme za stvaratelje, među ostalima.
Koliko god se ovi alati činili korisnima iz perspektive poduzeća, također je realno da bi mogli biti zloupotrijebljeni. Tvrtka je izjavila da je izgradila zaštitne mjere kako bi spriječila zloupotrebu svojih novih značajki za stvaranje spama, prijevara ili drugih oblika internetskog zlostavljanja. Određeni okidači su ugrađeni u sustav tako da “razgovori mogu biti zaustavljeni ako se otkriju kao kršenje naših smjernica o štetnom sadržaju,” navodi OpenAI.
Svi novi glasovni modeli uključeni su u OpenAI-ov Realtime API. Translate i Whisper se naplaćuju po minuti, dok se GPT-Realtime-2 naplaćuje prema potrošnji tokena.


