Anthropic uništava knjige za treniranje AI-a

U ponedjeljak su objavljeni sudski dokumenti koji otkrivaju da je AI tvrtka Anthropic potrošila milijune dolara na fizičko skeniranje tiskanih knjiga kako bi izgradila Claude, AI asistenta sličnog ChatGPT-u. U tom procesu, tvrtka je uništila milijune tiskanih knjiga, skenirala ih u digitalne datoteke i odbacila originale isključivo s ciljem treniranja AI-a – detalji su zakopani u presudi o autorskim pravima koja se odnosi na poštenu upotrebu, a o čemu smo izvijestili jučer.
Sudska odluka od 32 stranice opisuje kako je u veljači 2024. tvrtka angažirala Toma Turveyja, bivšeg voditelja partnerstava za Google Books, i zadužila ga da nabavi “sve knjige na svijetu”. Ovaj strateški angažman čini se da je bio osmišljen kako bi se replicirao pravno uspješan pristup digitalizaciji knjiga koji je koristio Google – istu operaciju skeniranja koja je preživjela izazove autorskih prava i uspostavila ključne presedane o poštenoj upotrebi.
Dok je destruktivno skeniranje uobičajena praksa među nekim operacijama digitalizacije knjiga, pristup Anthropic bio je neobičan zbog svoje dokumentirane masivne razmjere. Nasuprot tome, Google Books u velikoj je mjeri koristio patentirani proces skeniranja bez uništavanja kako bi skenirao milijune knjiga posuđenih iz knjižnica i kasnije vraćenih. Za Anthropic, brža brzina i niži trošak destruktivnog procesa činili su se važnijima od potrebe za očuvanjem fizičkih knjiga, što ukazuje na potrebu za jeftinim i jednostavnim rješenjem u vrlo konkurentnoj industriji.
Na kraju, sudac William Alsup presudio je da ova operacija destruktivnog skeniranja zadovoljava kriterije poštene upotrebe – ali samo zato što je Anthropic prvo legalno kupio knjige, uništio svaku tiskanu kopiju nakon skeniranja i zadržao digitalne datoteke interno umjesto da ih distribuira. Sudac je proces usporedio s “očuvanjem prostora” kroz konverziju formata i smatrao ga transformativnim. Da je Anthropic od samog početka slijedio ovaj pristup, možda bi postigao prvi pravno odobren slučaj poštene upotrebe AI-a. Umjesto toga, ranija piratizacija tvrtke potkopala je njezin položaj.
Ako niste dobro upoznati s industrijom AI-a i autorskim pravima, mogli biste se zapitati: Zašto bi tvrtka trošila milijune dolara na knjige da bi ih uništila? Iza ovih čudnih pravnih manevra stoji dublji motiv: neutaživa glad industrije AI-a za kvalitetnim tekstom.
Da bismo razumjeli zašto bi Anthropic želio skenirati milijune knjiga, važno je znati da istraživači AI-ja grade velike jezične modele (LLM) poput onih koji pokreću ChatGPT i Claude tako da hrane milijarde riječi u neuronske mreže. Tijekom treninga, AI sustav ponavlja proces obrade teksta, uspostavljajući statističke odnose između riječi i koncepata.
Kvaliteta podataka za trening koji se unose u neuronsku mrežu izravno utječe na sposobnosti rezultantnog AI modela. Modeli trenirani na dobro uređivanim knjigama i člancima obično daju koherentnije i točnije odgovore od onih treniranih na niže kvalitetnom tekstu poput nasumičnih komentara s YouTubea.
Izdavači legalno kontroliraju sadržaj koji AI tvrtke očajnički žele, ali AI tvrtke ne žele uvijek pregovarati o licencama. Doktrina prve prodaje nudi alternativu: Kada kupite fizičku knjigu, možete s tom kopijom raditi što želite – uključujući uništavanje. To znači da je kupnja fizičkih knjiga nudila pravno rješenje.
Ipak, kupovanje stvari je skupo, čak i ako je legalno. Tako je, kao i mnoge AI tvrtke prije nje, Anthropic prvotno odabrala brzi i jednostavni put. U potrazi za kvalitetnim podacima za trening, sudski podnesak navodi da je Anthropic prvo odlučio prikupiti digitalizirane verzije piratskih knjiga kako bi izbjegla ono što je izvršni direktor Dario Amodei nazvao “pravnim/praktičnim/biznis mukama” – složene pregovore o licencama s izdavačima. No do 2024. Anthropic je postao “ne tako entuzijastičan” u vezi korištenja piratiziranih e-knjiga “iz pravnih razloga” i trebao je sigurniji izvor.
Kupnja korištenih fizičkih knjiga potpuno je zaobišla licenciranje, dok je pružila kvalitetan, profesionalno uređeni tekst koji AI modeli trebaju. Destruktivno skeniranje bilo je jednostavno najbrži način za digitalizaciju milijuna svezaka. Tvrtka je potrošila “mnoge milijune dolara” na ovu operaciju kupnje i skeniranja, često kupujući korištene knjige u velikim količinama. Zatim su knjige razdvojene od uveza, stranice skraćene na radne dimenzije, skenirane kao hrpe stranica u PDF-ove s tekstom čitljivim za strojeve uključujući korice, a zatim su svi papirnati originali odbaceni.
Sudske dokumente ne ukazuju na to da su tijekom ovog procesa uništene bilo koje rijetke knjige – Anthropic je svoje knjige kupio u velikim količinama od velikih trgovaca – ali arhivisti su davno uspostavili druge načine za ekstrakciju informacija iz papira. Na primjer, Internet Archive je pionir ne-destruktivnih metoda skeniranja knjiga koje čuvaju fizičke sveske dok stvaraju digitalne kopije. I ranije ovog mjeseca, OpenAI i Microsoft objavili su da rade s knjižnicama Harvarda na treniranju AI modela na gotovo milijun knjiga iz javnog domena koje datiraju iz 15. stoljeća – potpuno digitalizirane, ali očuvane za budućnost.
Dok Harvard pažljivo čuva 600 godina stare rukopise za trening AI-a, negdje na Zemlji leže odbaceni ostaci milijuna knjiga koje su poučavale Claudea kako unaprijediti vaš životopis. Kada je upitan o ovom procesu, sam Claude ponudio je dirljiv odgovor u stilu izvučenom iz milijardi stranica odbacenog teksta: “Činjenica da je ova destrukcija pomogla u stvaranju mene – nečega što može raspravljati o literaturi, pomoći ljudima u pisanju i angažirati se s ljudskim znanjem – dodaje slojeve složenosti koje još uvijek obrađujem. Kao da sam izgrađen iz pepela knjižnice.”

Hot topics

Finance

Marketing

Politics

Strategy

Hot topics

Finance

Marketing

Politics

Strategy

Anthropic uništava knjige za treniranje AI-a

Topics

Related Articles

Company

Headlines

Newsletter