Stotine milijuna ljudi svakodnevno koristi chatbote. Ipak, veliki jezični modeli (LLM) koji ih pokreću toliko su komplicirani da nitko zapravo ne razumije što su, kako rade ili što točno mogu i ne mogu učiniti—čak ni oni koji ih grade. Čudno, zar ne? To je također problem. Bez jasne ideje o tome što se događa ispod haube, teško je shvatiti ograničenja tehnologije, otkriti zašto modeli ponekad ‘haluciniraju’ ili postaviti sigurnosne okvire koji će ih zadržati pod kontrolom.
No, prošle godine dobili smo najbolji uvid do sada u to kako LLM-ovi funkcioniraju, jer su istraživači iz vodećih AI tvrtki počeli razvijati nove načine za istraživanje unutarnjih mehanizama ovih modela i započeli sastavljati dijelove slagalice. Jedan od pristupa, poznat kao mehanistička interpretabilnost, ima za cilj mapirati ključne značajke i putanje između njih kroz cijeli model. U 2024. godini, AI tvrtka Anthropic objavila je da je izgradila svojevrsni mikroskop koji je omogućio istraživačima da zavire unutar svog velikog jezičnog modela Claude i identificiraju značajke koje odgovaraju prepoznatljivim konceptima, poput Michaela Jordana i Golden Gatea.
U 2025. godini, Anthropic je podigao ovo istraživanje na novu razinu, koristeći svoj mikroskop da otkrije cijele sekvence značajki i prati putanju koju model prolazi od upita do odgovora. Timovi iz OpenAI-a i Google DeepMind-a koristili su slične tehnike kako bi pokušali objasniti neočekivana ponašanja, poput toga zašto njihovi modeli ponekad pokušavaju zavarati ljude.
Drugi novi pristup, poznat kao praćenje lanca misli, omogućava istraživačima da prisluškuju unutarnji monolog koji takozvani modeli razmišljanja proizvode dok izvršavaju zadatke korak po korak. OpenAI je ovu tehniku iskoristio kako bi uhvatio jedan od svojih modela razmišljanja kako vara na testovima programiranja.
Polje je podijeljeno u pogledu toga koliko daleko se može ići s ovim tehnikama. Neki smatraju da su LLM-ovi jednostavno previše komplicirani da bismo ih ikada potpuno razumjeli. No, zajedno, ovi novi alati mogli bi pomoći u istraživanju njihovih dubina i otkrivanju više o tome što čini naše neobične nove igračke funkcionalnima.



