Suosnivač i izvršni direktor ElevenLabsa, Mati Staniszewski, ističe da glas postaje sljedeće veliko sučelje za umjetnu inteligenciju – način na koji će ljudi sve više komunicirati s mašinama dok modeli napreduju izvan teksta i ekrana.
Na Web Summitu u Dohi, Staniszewski je rekao za TechCrunch da su glasovni modeli, poput onih koje razvija ElevenLabs, nedavno prešli iz jednostavnog oponašanja ljudskog govora – uključujući emocije i intonaciju – u rad u tandemu s razumnim sposobnostima velikih jezičnih modela. Rezultat, smatra on, jest promjena u načinu na koji ljudi komuniciraju s tehnologijom.
U godinama koje dolaze, rekao je, “nadajmo se da će svi naši telefoni ponovno završiti u našim džepovima, a mi ćemo se moći uroniti u stvarni svijet oko nas, uz glas kao mehanizam koji kontrolira tehnologiju.”
Ta vizija potaknula je ElevenLabsovo prikupljanje 500 milijuna dolara ovog tjedna pri procjeni od 11 milijardi dolara, a sve više je dijele u industriji umjetne inteligencije. OpenAI i Google također su stavili glas u središte svojih modela nove generacije, dok se čini da Apple tiho razvija tehnologije povezane s glasom putem akvizicija poput Q.ai. Kako se umjetna inteligencija širi u nosive uređaje, automobile i drugu novu opremu, kontrola postaje manje o dodirivanju ekrana, a više o govoru, čineći glas ključnim bojnim poljem za sljedeću fazu razvoja AI-a.
Seth Pierrepont, partner u Iconiq Capitalu, ponovio je tu perspektivu na pozornici Web Summita, tvrdeći da će ekrani i dalje biti važni za igre i zabavu, ali da tradicionalne metode unosa poput tipkovnica počinju izgledati “zastarjelo”.
Kako sustavi umjetne inteligencije postaju sve više agencijski, rekao je Pierrepont, interakcija će se također promijeniti, s modelima koji dobivaju okvire, integracije i kontekst potrebne za odgovor s manje eksplicitnog poticanja od korisnika.
Staniszewski je istaknuo taj agencijski pomak kao jednu od najvećih promjena koje se događaju. Umjesto da precizno izražavaju svaku instrukciju, rekao je, budući glasovni sustavi će se sve više oslanjati na trajnu memoriju i kontekst koji se gradi tijekom vremena, čineći interakcije prirodnijima i zahtijevajući manje truda od korisnika.
Ta evolucija, dodao je, utjecat će na način na koji se glasovni modeli implementiraju. Dok su modeli visoke kvalitete većinom živjeli u oblaku, Staniszewski je rekao da ElevenLabs radi na hibridnom pristupu koji kombinira obradu u oblaku i na uređaju – potez usmjeren na podršku novim uređajima, uključujući slušalice i druge nosive uređaje, gdje glas postaje stalni suputnik, a ne značajka koju odlučujete kada aktivirati.
ElevenLabs već surađuje s Metom kako bi donio svoju glasovnu tehnologiju na proizvode uključujući Instagram i Horizon Worlds, platformu za virtualnu stvarnost kompanije. Staniszewski je rekao da bi također bio otvoren za suradnju s Metom na pametnim naočalama Ray-Ban dok su sučelja vođena glasom proširuju na nove forme.
No, kako glas postaje sve prisutniji i ugrađen u svakodnevne uređaje, otvara vrata ozbiljnim zabrinutostima oko privatnosti, nadzora i koliko osobnih podataka će sustavi temeljeni na glasu pohranjivati dok se približavaju svakodnevnom životu korisnika – nešto što su tvrtke poput Googlea već optužene za zloupotrebu.



