Srijeda, 15 travnja, 2026
16.5 C
London

Mistral predstavio novi model za pretvaranje teksta u govor

Francuska AI tvrtka Mistral je u četvrtak predstavila novi open-source model za pretvaranje teksta u govor koji se može koristiti za glasovne AI asistente ili u poslovnim slučajevima poput korisničke podrške. Ovaj model omogućuje poduzećima izradu glasovnih agenata za prodaju i angažman s kupcima, stavljajući Mistral u direktnu konkurenciju s tvrtkama poput ElevenLabs, Deepgram i OpenAI.

Novi model, nazvan Voxtral TTS, podržava devet jezika, uključujući engleski, francuski, njemački, španjolski, nizozemski, portugalski, talijanski, hindijski i arapski.

„Naši korisnici su tražili model govora. Tako smo izgradili manji model govora koji može stati na pametni sat, pametni telefon, prijenosno računalo ili druge uređaje. Njegova cijena je samo djelić svega ostalog na tržištu, ali nudi vrhunske performanse“, rekao je Pierre Stock, potpredsjednik znanstvenih operacija u Mistral AI, tijekom telefonskog intervjua za TechCrunch.

Mistral tvrdi da se novi model može prilagoditi prilagođenom glasu s uzorkom kraćim od pet sekundi, a također može zabilježiti karakteristike poput suptilnih akcenata, intonacija i nepravilnosti u govoru. Model, temeljen na Ministral 3B, može lako prelaziti između jezika bez gubitka karakteristika glasa, što je korisno za primjene poput sinhronizacije ili prevođenja u stvarnom vremenu. Stock je rekao da je tvrtka htjela da model zvuči ljudski, a ne robotski.

Prema tvrdnjama tvrtke, model je izrađen za performanse u stvarnom vremenu. Ima vrijeme do prvog zvuka (TTFA) od 90 ms za 10-sekundni uzorak od 500 znakova. Također ima faktor u stvarnom vremenu (RTF) od 6x, što znači da može obraditi 10-sekundni isječak za otprilike 1,6 sekundi.

Ranije ove godine, Mistral je pokrenuo par modela za transkripciju, jedan za obradu velikih serija i drugi za primjene u stvarnom vremenu s niskom latencijom. S novim modelom govora, tvrtka vjerojatno želi pružiti cjeloviti paket glasovnih proizvoda za poduzeća.

„Planiramo imati end-to-end platformu koja može obraditi multimodalne tokove ulaza, uključujući audio, tekst i slike, i izlaze. Glavna prednost toga je što dobivate mnogo više informacija s agentnim sustavom koji podržava audio kao ulaz ili izlaz“, rekao je Stock.

Mistral se pozicionira kao open-source i prilagodljiv, što će pomoći poduzećima da usvoje njegove glasovne modele u odnosu na konkurenciju, jer ih mogu prilagoditi prema svojim potrebama.

Hot this week

Allbirds postaje AI tvrtka s novim imenom

Nakon što je prošlog mjeseca prodala svoju marku cipela...

Reid Hoffman podržava koncept ‘tokenmaxxing’ u AI

Nekoliko dana nakon što je Meta ukinula svoju internu...

Adobe pokreće Firefly AI asistenta

Prošlog listopada, Adobe je predstavio novog asistenta pod imenom...

Izvještaj o AI indeksu 2026. godine

Prema podacima iz Izvještaja o AI indeksu 2026. godine...

Privatnost kao temelj korisničkog iskustva

Praksa korisničkog iskustva (UX) vođena privatnošću je dizajnerska filozofija...

Topics

Allbirds postaje AI tvrtka s novim imenom

Nakon što je prošlog mjeseca prodala svoju marku cipela...

Reid Hoffman podržava koncept ‘tokenmaxxing’ u AI

Nekoliko dana nakon što je Meta ukinula svoju internu...

Adobe pokreće Firefly AI asistenta

Prošlog listopada, Adobe je predstavio novog asistenta pod imenom...

Izvještaj o AI indeksu 2026. godine

Prema podacima iz Izvještaja o AI indeksu 2026. godine...

Privatnost kao temelj korisničkog iskustva

Praksa korisničkog iskustva (UX) vođena privatnošću je dizajnerska filozofija...

Skepticizam oko procjene OpenAI-a od 852 milijarde dolara

OpenAI-ova procjena od 852 milijarde dolara suočava se s...

Anthropicovi modeli i suradnja s vladom

Jack Clark, jedan od suosnivača Anthropic-a i voditelj javne...

Uspon agentne umjetne inteligencije u inženjerstvu softvera

Inženjerstvo softvera doživjelo je dva velika preokreta ovog stoljeća....
spot_img

Related Articles

Popular Categories

spot_imgspot_img