Podrška korisnicima i usluge među su najtraženijim sektorima glasovne AI tehnologije. Međutim, izrada proizvoda koji zvuči ljudski i odgovara bez primjetnog kašnjenja pokazuje se daleko težom u nekim tržištima nego u drugima — a većina glavnih igrača nije stvorena s Afrikom i Bliskim Istokom na umu.
AethexAI, startup osnovan prošle godine s ciljem zatvaranja te razlike, prikupio je 3 milijuna dolara u pre-seed financiranju, predvođenim 4DX Ventures, uz sudjelovanje Enza Capital, Dorm Room Fund, Mojo Ventures i Stanford GSB 26 Fund. Među pojedinačnim investitorima su profesori sa Stanforda, izvršni direktori telekomunikacija i istraživači AI iz Anthropic.
Umjesto korištenja postojećih alata za orkestraciju poput Vapi i LiveKit, tvrtka je izgradila vlastiti mali model i sloj orkestracije od nule kako bi obradila lokalne dijalekte engleskog, francuskog i arapskog jezika, govoreći u svojim ciljanim tržištima — odluka koja je, kako ćemo vidjeti, vođena specifičnim zahtjevima rada u regiji.
Tvrtka također pokreće svoju platformu za poduzeća kako bi isprobala svoju tehnologiju i prijavila se za usluge, uz API-je i SDK-ove za razvojne programere koji žele eksperimentirati s modelima.
Startup su osnovali Mariama Diallo i Ayooluwa Odemuyiwa. CEO Diallo radio je u Goldman Sachsu, a kasnije se pridružila ModelML-u kao stručnjak za proizvod i rast. CTO Odemuyiwa diplomirao je na Caltechu, radio u Meti i upisao Stanford Business School prije nego što je suosnovao tvrtku. Par je želio izgraditi nešto za tržišta u razvoju i počeo je tražiti prilike.
Tvrtke širom svijeta utrkuju se u usvajanju AI alata kako bi automatizirale dijelove svojih operacija. Međutim, to ne uvijek donosi očekivane rezultate. U Egiptu je pozivni centar automatizirao značajan udio svojih poziva, ali su sustav povukli zbog loših rezultata, otkrili su osnivači. Nekoliko centara za podršku u Africi izvijestilo ih je da je pronalaženje i zapošljavanje inženjera za automatizaciju poziva po pravoj cijeni stalna glavobolja.
„Kašnjenje i jitter koje smo vidjeli na automatiziranim pozivima u ovoj regiji bili su nevjerojatni. Ako bismo postali orkestratori, morali bismo koristiti velike modele koji se hostaju izvan regije, što bi rezultiralo višim kašnjenjem. Shvatili smo da, da bi ovo uspjelo, moramo koristiti vrlo male modele i smanjiti kašnjenje na svakom koraku,“ rekao je Odemuyiwa za TechCrunch o odluci da izgrade vlastite modele i sloj orkestracije.
AI laboratoriji koji primjenjuju svoje najnovije modele obično troše milijune na njihovo treniranje i prikupljanje podataka. AethexAI je pronašao rješenje za oboje. Umjesto da jure najveće moguće modele, odlučili su da su mali modeli dovoljni za rješavanje problema kašnjenja uz održavanje točnosti i razvili su vlastitu Kora seriju, s parametrima od 300 milijuna do 1,7 milijardi. To je samo djelić veličine LLM-ova, što je i poanta.
Kako bi trenirali ove modele, startup je koristio anonimne snimke iz pozivnog centra partnera. Također su slali tvrde diskove radijskim stanicama diljem Afrike kako bi prikupili više audio podataka. Kako bi smanjili troškove, izgradili su mrežu suradnika među studentima kako bi označili podatke i izgovarali lokalna imena. Kao rezultat, startup tvrdi da sada obrađuje više od 17.000 poziva dnevno.
Na poslovnoj strani, tvrtka pažljivo vodi klijente koji su novi u glasovnoj AI kroz proces, nudeći demonstracije na licu mjesta i radionice kako bi im pomogli identificirati najbolje slučajeve upotrebe za automatizaciju.
„Uvijek govorimo kupcima da trenutno ne možemo biti sve za svakoga. Mali smo. Kada počnemo razgovarati s tvrtkom, tražimo od njih da odaberu jedan slučaj upotrebe koji im je najvažniji za početak,“ rekla je Diallo.
Startup je otvoren za rad u svim industrijama, ali trenutno veliki dio njegovih slučajeva upotrebe uključuje pozive za naplatu dugova, aktivaciju korisnika ili KYC — provjeru identiteta korisnika, standardni postupak provjere identiteta koji koriste banke i telekomi. Tvrtka zapošljava inženjere na terenu na ugovornoj osnovi kako bi služili lokalnim tržištima i gradi partnerske odnose s telekomunikacijskim pružateljima kako bi upravljala telefonijom za glasovne AI pozive. Plug-and-play rješenja, kako tvrde, jednostavno neće funkcionirati ovdje.
Walter Baddoo, suosnivač i upravni partner 4DX Ventures, tvrdi da je tržište Afrike i Bliskog Istoka fundamentalno drugačije od tržišta za koja su većina tvrtki glasovne AI stvorene.
„Poduzeća u Africi i na Bliskom Istoku obrađuju otprilike tri puta veći volumen poziva od svojih zapadnih kolega, budući da je glas još uvijek dominantni kanal za interakciju s kupcima,“ rekao je. „Postojeći sustavi izgrađeni su za zapadna tržišta karakterizirana visokokvalitetnom GPU infrastrukturom, standardnim engleskim i europskim govornim okruženjima, te radnim procesima koji su uobičajeni u SAD-u i Europi. To stvara stvarne praznine kada poduzeća trebaju sustave koji obrađuju dijalekte, kodiranje jezika i neformalne obrasce govora, a koji rade unutar njihove postojeće telekomunikacijske infrastrukture i njihovih stvarnih cjenovnih točaka.“
Drugim riječima, dok se tvrtke poput ElevenLabs, Deepgram, Sierra i Cognigy brzo šire globalno, tržišta za koja su izgrađena i tržišta na koja ulaze nisu uvijek ista. Startupi poput AethexAI klade se da praznine — modeli specijalizirani za lokalne dijalekte, partnerstva na terenu, infrastruktura izgrađena za regiju — predstavljaju tržišno otvaranje koje divovi nemaju ni poticaj ni arhitekturu da zatvore.



