Koliko slova P ima u Googleu? Prema Googleu, postoje dva.
Također, postoji “točno 1 ‘r’ u riječi ‘poop'”, navodi Googleova AI pregled, kao i dva ‘d’ u riječi novinarstvo, iako je to ispravno napisano: j-o-u-r-n-a-d-i-s-m. Google je barem prepoznao da postoji jedno P u prezimenu predsjednika SAD-a, ali ga je napisao kao t-r-p-u-m.
Nije bilo potrebno biti prorok da se predvidi da će Googleova AI pretraga naići na loše reakcije. Ovo se već dogodilo. Prvi put kada je Google dodao AI preglede pretrazi, značajka je završila citirajući satirične objave s The Onion i Reddita, savjetujući ljudima da jedu kamenje i stavljaju ljepilo na pizzu.
Ovaj put, dok Google udvostručuje svoju predanost generativnoj AI kao središnjem dijelu svog 29 godina starog vodećeg proizvoda, nije iznenađujuće vidjeti ga kako se sapliće.
“Brojanje unutar riječi poznat je izazov za LLM-ove, i radimo na rješavanju ovog specifičnog problema”, rekao je Google za TechCrunch u izjavi putem e-pošte.
Ove osnovne pravopisne pogreške mogu izgledati poznato. LLM-ovi, vrsta umjetne inteligencije koja pokreće chatbote i druge tekstualne generatore, nisu izgrađeni da razumiju pravopis. Već godinama postoji šala da kada neka kompanija predstavi novi AI model, treba ga pitati koliko ‘r’ ima u riječi jagoda. Ovi AI modeli — koji mogu kodirati aplikaciju u sekundama ili riješiti probleme koji su mučili matematičare desetljećima — jednako su dobri u pravopisu kao i dijete iz vrtića.
Googleovi problemi s AI pregledima nadilaze smiješne pravopisne pogreške. Google je već ispravio problem od prošlog tjedna u kojem je pretraživanje riječi zanemariti rezultiralo izgledom definicije riječi, samo što je definicija bila prikazana kao: “Razumijem. Javite mi kada imate novi upit ili pitanje!” No, ove pravopisne pogreške ostale su zabavne jer ih je teško ispraviti.
Kao što su istraživači ranije objasnili kada smo pitali o ovim pravopisnim zagonetkama, AI ne percipira rečenice kao jezične jedinice sastavljene od riječi i slova. Mnogi LLM-ovi temelje se na transformatorima, koji razlažu tekst na tokene, koji mogu biti pune riječi, slogovi ili slova, ovisno o modelu. Umjesto da “čita” kao čovjek, AI pretvara tekst u numeričke prikaze, koje zatim kontekstualizira kako bi došao do logičnog odgovora.
Ova tokenizirana arhitektura koja pokreće LLM-ove poput Googleovog AI pregleda inherentno je ograničavajuća, a istraživači nisu optimistični da će moći riješiti problem pravopisa.
“Teško je doći do pitanja što točno ‘riječ’ treba biti za jezični model, a čak i ako bismo dobili ljudske stručnjake da se slože oko savršene tokenizacije, modeli bi vjerojatno i dalje našli korisnim ‘razbiti’ stvari još više”, rekao je Sheridan Feucht, student doktorskog studija koji proučava interpretabilnost velikih jezičnih modela na Sveučilištu Northeastern.
Ovo nije nužno hitan problem koji istraživači imaju na umu, budući da korisnost LLM-ova ne dolazi iz njihove sposobnosti pravopisa. No, ove očite greške pomažu nam da se sjetimo da AI nije savršen, čak i ako ponekad izgleda kao sveobuhvatna moć izvan našeg razumijevanja. Ne možemo slijepo vjerovati AI ishodima bez dvostruke provjere njihove točnosti.



