Srijeda, 15 travnja, 2026
16.5 C
London

Cohere lansira svoj prvi model za prepoznavanje glasa

Tvrtka Cohere koja se bavi umjetnom inteligencijom u četvrtak je lansirala svoj prvi model prepoznavanja glasa: Transcribe, open-source model automatskog prepoznavanja govora koji se može koristiti za zadatke poput bilježenja i analize govora.

Model je relativno lagan s samo 2 milijarde parametara i namijenjen je korištenju s potrošačkim GPU-ima za one koji ga žele samostalno hostati. Trenutno podržava 14 jezika: engleski, francuski, njemački, talijanski, španjolski, portugalski, grčki, nizozemski, poljski, kineski, japanski, korejski, vijetnamski i arapski.

Cohere tvrdi da Transcribe nadmašuje modele poput Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 i Qwen3-ASR-1.7B Speech na Hugging Face Open ASR leaderboardu, postigavši prosječnu stopu pogrešaka riječi (WER) od 5.42, što je manje od bilo kojeg drugog modela na tom benchmarku.

Tvrtka tvrdi da je Transcribe imao prosječnu stopu pobjeda od 61% u odnosu na druge modele kada su ljudski ocjenjivači procjenjivali njegove transkripcije prema točnosti, koherentnosti i upotrebljivosti. Međutim, model je zaostajao za konkurentima kada je trebao transkribirati portugalski, njemački i španjolski.

Cohere navodi da Transcribe može obraditi 525 minuta zvuka u jednoj minuti, što je visoko za ovu klasu modela.

Tvrtka planira integrirati Transcribe u svoju platformu za orkestraciju agenata za poduzeća, North, i čini model dostupnim putem svog API-ja besplatno. Model će također biti dostupan na Model Vault, Cohereovoj platformi za upravljanje inferencijom.

Modeli za prepoznavanje govora postaju sve popularniji kako raste potražnja za aplikacijama za bilježenje i diktiranje poput Granole i Wispr Flow.

Ranije ove godine, Cohere je navodno rekao investitorima da generira godišnji ponavljajući prihod od 240 milijuna dolara u 2025. godini, a njihov CEO, Aidan Gomez, citiran je rekavši da bi startup mogao postati javna tvrtka “uskoro”.

Hot this week

Privatnost kao temelj korisničkog iskustva

Praksa korisničkog iskustva (UX) vođena privatnošću je dizajnerska filozofija...

Skepticizam oko procjene OpenAI-a od 852 milijarde dolara

OpenAI-ova procjena od 852 milijarde dolara suočava se s...

Anthropicovi modeli i suradnja s vladom

Jack Clark, jedan od suosnivača Anthropic-a i voditelj javne...

Uspon agentne umjetne inteligencije u inženjerstvu softvera

Inženjerstvo softvera doživjelo je dva velika preokreta ovog stoljeća....

Science Corporation pokreće ljudske testove biohibridnog sučelja

Science Corporation, startup bivšeg predsjednika i suosnivača Neuralinka, Maxa...

Topics

Privatnost kao temelj korisničkog iskustva

Praksa korisničkog iskustva (UX) vođena privatnošću je dizajnerska filozofija...

Skepticizam oko procjene OpenAI-a od 852 milijarde dolara

OpenAI-ova procjena od 852 milijarde dolara suočava se s...

Anthropicovi modeli i suradnja s vladom

Jack Clark, jedan od suosnivača Anthropic-a i voditelj javne...

Uspon agentne umjetne inteligencije u inženjerstvu softvera

Inženjerstvo softvera doživjelo je dva velika preokreta ovog stoljeća....

Science Corporation pokreće ljudske testove biohibridnog sučelja

Science Corporation, startup bivšeg predsjednika i suosnivača Neuralinka, Maxa...

Google dodaje AI mogućnosti u Chrome

Google je u utorak najavio dodavanje novih AI mogućnosti...

StrictlyVC dolazi u San Francisco 2026.

Prvi StrictlyVC događaj ove godine održat će se u...

Google dovodi Gemini Personal Intelligence u Indiju

Google je u utorak najavio da donosi značajku Gemini...
spot_img

Related Articles

Popular Categories

spot_imgspot_img