Tvrtka Cohere koja se bavi umjetnom inteligencijom u četvrtak je lansirala svoj prvi model prepoznavanja glasa: Transcribe, open-source model automatskog prepoznavanja govora koji se može koristiti za zadatke poput bilježenja i analize govora.
Model je relativno lagan s samo 2 milijarde parametara i namijenjen je korištenju s potrošačkim GPU-ima za one koji ga žele samostalno hostati. Trenutno podržava 14 jezika: engleski, francuski, njemački, talijanski, španjolski, portugalski, grčki, nizozemski, poljski, kineski, japanski, korejski, vijetnamski i arapski.
Cohere tvrdi da Transcribe nadmašuje modele poput Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 i Qwen3-ASR-1.7B Speech na Hugging Face Open ASR leaderboardu, postigavši prosječnu stopu pogrešaka riječi (WER) od 5.42, što je manje od bilo kojeg drugog modela na tom benchmarku.
Tvrtka tvrdi da je Transcribe imao prosječnu stopu pobjeda od 61% u odnosu na druge modele kada su ljudski ocjenjivači procjenjivali njegove transkripcije prema točnosti, koherentnosti i upotrebljivosti. Međutim, model je zaostajao za konkurentima kada je trebao transkribirati portugalski, njemački i španjolski.
Cohere navodi da Transcribe može obraditi 525 minuta zvuka u jednoj minuti, što je visoko za ovu klasu modela.
Tvrtka planira integrirati Transcribe u svoju platformu za orkestraciju agenata za poduzeća, North, i čini model dostupnim putem svog API-ja besplatno. Model će također biti dostupan na Model Vault, Cohereovoj platformi za upravljanje inferencijom.
Modeli za prepoznavanje govora postaju sve popularniji kako raste potražnja za aplikacijama za bilježenje i diktiranje poput Granole i Wispr Flow.
Ranije ove godine, Cohere je navodno rekao investitorima da generira godišnji ponavljajući prihod od 240 milijuna dolara u 2025. godini, a njihov CEO, Aidan Gomez, citiran je rekavši da bi startup mogao postati javna tvrtka “uskoro”.



