Guide Labs predstavio interpretabilni LLM Steerling-8B

Izazov rada s modelima dubokog učenja često leži u razumijevanju zašto model radi to što radi. Sanfrancisco startup Guide Labs, kojeg vode CEO Julius Adebayo i glavna znanstvenica Aya Abdelsalam Ismail, nudi rješenje za taj problem. U ponedjeljak je kompanija otvorila izvorni kod za LLM s 8 milijardi parametara, Steerling-8B, treniran s novom arhitekturom koja omogućuje lako tumačenje njegovih akcija: Svaki token koji model generira može se pratiti do izvora u podacima za obuku LLM-a.

To može biti jednostavno kao utvrđivanje referentnih materijala za činjenice koje model citira, ili složeno kao razumijevanje modelove percepcije humora ili roda.

„Ako imam trilijun načina za kodiranje roda, a kodiram ga u 1 milijardu od tih trilijun, morate osigurati da pronađete svih 1 milijardu stvari koje sam kodirao, a zatim ih pouzdano uključiti ili isključiti“, rekao je Adebayo za TechCrunch. „To možete učiniti s trenutnim modelima, ali je vrlo krhko… To je jedno od svetih pitanja.”

Adebayo je započeo ovaj rad dok je sticao doktorat na MIT-u, suautorski pišući široko citirani rad iz 2018. godine koji je pokazao da postojeće metode razumijevanja modela dubokog učenja nisu pouzdane. Taj rad na kraju je doveo do stvaranja novog načina izrade LLM-ova: Razvijatelji umetnu sloj koncepata u model koji grupira podatke u praćene kategorije. To zahtijeva više unaprijed označavanja podataka, ali korištenjem drugih AI modela za pomoć, uspjeli su obučiti ovaj model kao svoj najveći dokaz koncepta dosad.

„Vrsta interpretabilnosti koju ljudi rade je… neuroznanost na modelu, a mi to preokrećemo“, rekao je Adebayo. „Ono što radimo je zapravo inženjering modela od temelja, tako da ne trebate raditi neuroznanost.”

Arhitektura Guide Labs — **Kredit za sliku:** Guide Labs

Jedna od briga oko ovog pristupa je da bi mogla eliminirati neke od emergentnih ponašanja koja čine LLM-ove tako intrigantnima: Njihovu sposobnost generalizacije na nove načine o stvarima na kojima nisu još trenirani. Adebayo tvrdi da se to i dalje događa u modelu njegove tvrtke: Njegov tim prati ono što nazivaju „otkrivenim konceptima“ koje je model otkrio sam.

Adebayo tvrdi da će ova interpretabilna arhitektura biti nešto što će svima trebati. Za LLM-ove usmjerene na potrošače, ove tehnike trebale bi omogućiti graditeljima modela da blokiraju korištenje materijala zaštićenih autorskim pravima ili bolje kontroliraju rezultate oko tema poput nasilja ili zloupotrebe droga. Regulirane industrije zahtijevat će kontrolabilnije LLM-ove — primjerice, u financijama — gdje model koji procjenjuje kandidate za zajmove treba razmotriti stvari poput financijskih evidencija, ali ne i rasu. Također postoji potreba za interpretabilnošću u znanstvenom radu, još jednom području u kojem je Guide Labs razvila tehnologiju.

„Ovaj model pokazuje da obuka interpretabilnih modela više nije znanstveno pitanje; to je sada inženjerski problem“, rekao je Adebayo. „Shvatili smo znanost i možemo ih skalirati, i nema razloga zašto ovaj tip modela ne bi mogao odgovarati performansama modela na granici“, koji imaju mnogo više parametara.

Guide Labs tvrdi da Steerling-8B može postići 90% sposobnosti postojećih modela, ali koristi manje podataka za obuku, zahvaljujući svojoj novoj arhitekturi. Sljedeći korak za kompaniju, koja je nastala iz Y Combinatora i prikupila 9 milijuna dolara od Initialized Capital u studenom 2024., je izgraditi veći model i početi nuditi API i agentni pristup korisnicima.

„Način na koji trenutno obučavamo modele je super primitivan, i demokratizacija inherentne interpretabilnosti zapravo će biti dugoročno dobra stvar za našu ulogu unutar ljudske rase“, rekao je Adebayo za TechCrunch. „Dok se upuštamo u modele koji će biti super inteligentni, ne želite da nešto donosi odluke u vaše ime što vam je nejasno.”

Hot topics

Finance

Marketing

Politics

Strategy

Hot topics

Finance

Marketing

Politics

Strategy

Guide Labs predstavio interpretabilni LLM Steerling-8B

Topics

Related Articles

Company

Headlines

Newsletter