Indijski AI laboratorij Sarvam u utorak je predstavio novu generaciju velikih jezičnih modela, vjerujući da će manji, učinkoviti open source AI modeli moći privući dio tržišta od skupljih sustava koje nude njihovi mnogo veći američki i kineski konkurenti.
Predstavljanje je najavljeno na India AI Impact Summit u New Delhiju, što se uklapa u napore New Delhija da smanji ovisnost o stranim AI platformama i prilagodi modele lokalnim jezicima i slučajevima upotrebe.
Sarvam je izjavio da nova linija uključuje modele s 30 milijardi i 105 milijardi parametara; model za pretvaranje teksta u govor; model za pretvaranje govora u tekst; i vizualni model za analizu dokumenata. Ovi modeli predstavljaju značajno poboljšanje u odnosu na model Sarvam 1 s 2 milijarde parametara koji je objavljen u listopadu 2024.
Modeli s 30 i 105 milijardi parametara koriste arhitekturu mješavine stručnjaka, koja aktivira samo dio svojih ukupnih parametara u isto vrijeme, što značajno smanjuje troškove računalne obrade, navodi Sarvam. Model od 30B podržava kontekstni prozor od 32.000 tokena, namijenjen za korištenje u realnom vremenu, dok veći model nudi prozor od 128.000 tokena za složenije višestepene zadatke razmišljanja.

Sarvam je izjavio da su novi AI modeli trenirani od nule, a ne fino podešavani na postojećim open source sustavima. Model 30B bio je unaprijed treniran na oko 16 trilijuna tokena teksta, dok je model 105B treniran na trilijunima tokena na više indijskih jezika.
Modeli su dizajnirani za podršku aplikacijama u stvarnom vremenu, rekao je startup, uključujući glasovne asistente i chat sustave na indijskim jezicima.

Startup je naveo da su modeli trenirani koristeći računalne resurse koje je osigurala Indijska vlada u okviru vladajuće misije IndiaAI, uz infrastrukturnu podršku operatera podatkovnih centara Yotta i tehničku podršku od tvrtke Nvidia.
Sarvam planira otvoriti kod za modele 30B i 105B, iako nije precizirao hoće li podaci za treniranje ili puni kod za treniranje također biti javno dostupni.



