Mistral predstavio novi model za pretvaranje teksta u govor

Francuska AI tvrtka Mistral je u četvrtak predstavila novi open-source model za pretvaranje teksta u govor koji se može koristiti za glasovne AI asistente ili u poslovnim slučajevima poput korisničke podrške. Ovaj model omogućuje poduzećima izradu glasovnih agenata za prodaju i angažman s kupcima, stavljajući Mistral u direktnu konkurenciju s tvrtkama poput ElevenLabs, Deepgram i OpenAI.

Novi model, nazvan Voxtral TTS, podržava devet jezika, uključujući engleski, francuski, njemački, španjolski, nizozemski, portugalski, talijanski, hindijski i arapski.

„Naši korisnici su tražili model govora. Tako smo izgradili manji model govora koji može stati na pametni sat, pametni telefon, prijenosno računalo ili druge uređaje. Njegova cijena je samo djelić svega ostalog na tržištu, ali nudi vrhunske performanse“, rekao je Pierre Stock, potpredsjednik znanstvenih operacija u Mistral AI, tijekom telefonskog intervjua za TechCrunch.

Mistral tvrdi da se novi model može prilagoditi prilagođenom glasu s uzorkom kraćim od pet sekundi, a također može zabilježiti karakteristike poput suptilnih akcenata, intonacija i nepravilnosti u govoru. Model, temeljen na Ministral 3B, može lako prelaziti između jezika bez gubitka karakteristika glasa, što je korisno za primjene poput sinhronizacije ili prevođenja u stvarnom vremenu. Stock je rekao da je tvrtka htjela da model zvuči ljudski, a ne robotski.

Prema tvrdnjama tvrtke, model je izrađen za performanse u stvarnom vremenu. Ima vrijeme do prvog zvuka (TTFA) od 90 ms za 10-sekundni uzorak od 500 znakova. Također ima faktor u stvarnom vremenu (RTF) od 6x, što znači da može obraditi 10-sekundni isječak za otprilike 1,6 sekundi.

Ranije ove godine, Mistral je pokrenuo par modela za transkripciju, jedan za obradu velikih serija i drugi za primjene u stvarnom vremenu s niskom latencijom. S novim modelom govora, tvrtka vjerojatno želi pružiti cjeloviti paket glasovnih proizvoda za poduzeća.

„Planiramo imati end-to-end platformu koja može obraditi multimodalne tokove ulaza, uključujući audio, tekst i slike, i izlaze. Glavna prednost toga je što dobivate mnogo više informacija s agentnim sustavom koji podržava audio kao ulaz ili izlaz“, rekao je Stock.

Mistral se pozicionira kao open-source i prilagodljiv, što će pomoći poduzećima da usvoje njegove glasovne modele u odnosu na konkurenciju, jer ih mogu prilagoditi prema svojim potrebama.

Hot topics

Finance

Marketing

Politics

Strategy

Hot topics

Finance

Marketing

Politics

Strategy

Mistral predstavio novi model za pretvaranje teksta u govor

Topics

Related Articles

Company

Headlines

Newsletter