Startup za otkrivanje AI sadržaja GPTZero pregledao je svih 4,841 radova prihvaćenih na prestižnoj Konferenciji o sustavima za obradu informacija (NeurIPS), koja se održala prošlog mjeseca u San Diegu. Tvrtka je pronašla 100 lažnih citata u 51 radu koje je potvrdila kao lažne, javlja TechCrunch.
Imati rad prihvaćen na NeurIPS-u je značajan uspjeh u svijetu AI-a. S obzirom na to da su to vodeći umovi u AI istraživanju, može se pretpostaviti da bi koristili LLM-ove za dosadni zadatak pisanja citata.
Ipak, ova otkrića imaju svoje rezervacije: 100 potvrđenih lažnih citata u 51 radu nije statistički značajno. Svaki rad ima desetke citata, pa je od tisuća citata, ovo statistički zanemarivo.
Također, važno je napomenuti da netočan citat ne poništava istraživanje u radu. Kao što je NeurIPS rekao Fortuneu, koji je prvi izvijestio o istraživanju GPTZero, “Čak i ako 1.1% radova ima jedan ili više netočnih referenci zbog korištenja LLM-ova, sadržaj radova samih po sebi nije nužno nevažeći.”
No, unatoč svemu tome, lažni citat nije beznačajan. NeurIPS se ponosi svojom “strogošću u akademskom objavljivanju u strojnome učenju i umjetnoj inteligenciji,” navode. Svaki rad recenzira više osoba koje su zadužene za označavanje lažnih informacija.
Citiranje je također neka vrsta valute za istraživače. Koriste se kao mjerilo karijere za pokazivanje utjecaja rada istraživača među kolegama. Kada ih AI izmišlja, njihova vrijednost se umanjuje.
Nitko ne može zamjeriti recenzentima što nisu uhvatili nekoliko citata koje je izradio AI, s obzirom na ogroman broj koji je uključen. GPTZero također brzo ističe ovo. Cilj vježbe bio je ponuditi specifične podatke o tome kako AI sadržaj ulazi putem “tsunamija prijava” koji je “naprezao recenzentske procese ovih konferencija do točke pucanja,” navodi startup u svom izvješću. GPTZero čak ukazuje na rad iz svibnja 2025. pod nazivom “Krizu recenziranja na AI konferencijama” koji je raspravljao o problemu na prestižnim konferencijama, uključujući NeurIPS.
Ipak, zašto istraživači sami nisu provjerili točnost rada LLM-a? Sigurno moraju znati stvarni popis radova koje su koristili za svoj rad.
Ovo sve zapravo ukazuje na jednu veliku, ironičnu poruku: Ako vodeći AI stručnjaci, s obzirom na svoje reputacije, ne mogu osigurati točnost korištenja LLM-a u detaljima, što to znači za ostale?



