Tvrtka Goodfire ima misiju učiniti razvoj AI modela manje nalik alkemiji i više znanosti. Iako LLM-ovi poput ChatGPT-a i Gemini mogu postići nevjerojatne stvari, još uvijek nije jasno kako i zašto oni funkcioniraju, što otežava ispravljanje njihovih nedostataka ili blokiranje neželjenih ponašanja. Eric Ho, izvršni direktor Goodfire-a, u ekskluzivnom razgovoru za MIT Technology Review ističe: „Vidjeli smo sve veći razmak između razumijevanja modela i njihove široke primjene. Dominantna percepcija u svakom važnom istraživačkom laboratoriju danas je da je potrebno više resursa, više podataka za postizanje AGI-a [umjetne opće inteligencije] i da ništa drugo nije važno. No, mi tvrdimo da postoji bolji pristup.”
Goodfire je jedna od rijetkih tvrtki, uz vođe industrije poput Anthropic-a, OpenAI-a i Google DeepMind-a, koja razvija tehniku poznatu kao mehanistička interpretabilnost, koja nastoji razumjeti što se događa unutar AI modela prilikom izvršavanja zadatka mapiranjem neurona i putanja između njih. (MIT Technology Review odabrao je mehanističku interpretabilnost kao jednu od 10 proboja tehnologija za 2026.) Goodfire želi koristiti ovaj pristup ne samo za reviziju modela, već i za njihovo prvotno dizajniranje.
„Želimo ukloniti probu i pogrešku i pretvoriti treniranje modela u precizno inženjerstvo“, kaže Ho. „To znači izlaganje svih kontrola kako bi ih mogli koristiti tijekom procesa treniranja.” Goodfire je već koristio svoje tehnike i alate za prilagodbu ponašanja LLM-ova, primjerice smanjenje broja halucinacija koje proizvode. S proizvodom Silico, tvrtka sada paketira mnoge od tih internih tehnika i nudi ih kao proizvod.
Silico koristi agente za automatizaciju većine složenog rada. „Agenti su sada dovoljno jaki da obavljaju veliki dio posla interpretabilnosti koji smo radili uz pomoć ljudi“, kaže Ho. „To je bila praznina koju je trebalo premostiti prije nego što je ovo postalo održiva platforma koju kupci mogu sami koristiti.” Leonard Bereska, istraživač na Sveučilištu u Amsterdamu koji se bavi mehanističkom interpretabilnošću, smatra da Silico izgleda kao koristan alat, ali se protivi ambicioznim ciljevima Goodfire-a. „U stvarnosti, oni dodaju preciznost alkemičarskom procesu“, kaže. „Nazivanje toga inženjerstvom zvuči principijelnije nego što jest.”
Silico omogućuje korisnicima da se fokusiraju na specifične dijelove treniranog modela, poput pojedinačnih neurona ili grupa neurona, i provode eksperimente kako bi vidjeli što ti neuroni rade. Na primjer, Goodfire je pronašao jedan neuron unutar otvorenog modela Qwen 3 koji je bio povezan s takozvanim problemom tramvaja. Aktivacija ovog neurona promijenila je odgovore modela, čineći da njegovi izlazi odražavaju moralne dileme. „Kada je ovaj neuron aktivan, događaju se razne čudne stvari“, kaže Ho.
Uz izdavanje Silica, Goodfire želi omogućiti pristup tehnikama koje su prethodno bile dostupne samo nekolicini vodećih laboratorija manjim tvrtkama i istraživačkim timovima koji žele razvijati vlastite modele ili prilagoditi otvorene modele. Alat će biti dostupan uz naknadu koja će se odrediti pojedinačno prema zahtjevima kupaca.



