ArXiv, široko korištena otvorena baza podataka za preprint istraživanje, poduzima dodatne mjere protiv neodgovornog korištenja velikih jezičnih modela u znanstvenim radovima.
Iako se radovi objavljuju na stranici prije nego što prođu recenziju, arXiv (izgovara se “archive”) postao je jedan od glavnih načina na koji cirkuliraju istraživanja u područjima poput računalnih znanosti i matematike, a sama stranica postala je izvor podataka o trendovima u znanstvenim istraživanjima.
ArXiv je već poduzeo korake kako bi se borio protiv sve većeg broja niskokvalitetnih, AI-generiranih radova, primjerice, zahtijevajući od prvih autora da dobiju podršku od etabliranog autora. Nakon više od 20 godina hostinga na Cornell-u, organizacija postaje neovisna neprofitna institucija, što bi joj trebalo omogućiti prikupljanje više novca za rješavanje problema poput AI slopa.
U svom najnovijem potezu, Thomas Dietterich — predsjednik računalnog odjela arXiva — objavio je četvrtak da “ako prijava sadrži neosporne dokaze da autori nisu provjerili rezultate generiranja LLM-a, to znači da ne možemo vjerovati ničemu u radu.”
Ti neosporni dokazi mogli bi uključivati stvari poput “haluciniranih referenci” i komentara prema ili od LLM-a, rekao je Dietterich. Ako se takvi dokazi pronađu, autorima rada prijetit će “jednogodišnja zabrana korištenja arXiva, nakon čega će sljedeće prijave morati biti prethodno prihvaćene od uglednog recenziranog mjesta.”
Napominjemo da ovo nije potpuna zabrana korištenja LLM-ova, već zahtjev da, kako je Dietterich rekao, autori preuzmu “potpunu odgovornost” za sadržaj, “bez obzira na to kako je sadržaj generiran.” Dakle, ako istraživači kopiraju i lijepe “neprikladan jezik, plagirane sadržaje, pristrane sadržaje, pogreške, netočne reference ili obmanjujući sadržaj” izravno iz LLM-a, i dalje su odgovorni za to.
Dietterich rekao je za 404 Media da će ovo biti pravilo “jednog udarca”, ali moderatori moraju označiti problem, a predsjednici sekcija moraju potvrditi dokaze prije nego što se izrekne kazna. Autori će također moći uložiti žalbu na odluku.
Recentna istraživanja koja su prošla recenziju pokazala su da fabricirane citate postaju sve češće u biomedicinskim istraživanjima, vjerojatno zbog LLM-ova — iako, da budemo pošteni, znanstvenici nisu jedini koji se hvataju korištenja citata koje je stvorio AI.


