Nova studija ispituje kako veliki jezični modeli funkcioniraju u raznim medicinskim kontekstima, uključujući stvarne slučajeve iz hitnih službi — gdje se činilo da je barem jedan model bio precizniji od ljudskih liječnika.
Studija je objavljena ovog tjedna u časopisu Science, a dolazi iz istraživačkog tima koji predvode liječnici i računalni znanstvenici s Harvard Medical School i Beth Israel Deaconess Medical Center. Istraživači su proveli razne eksperimente kako bi izmjerili kako se OpenAI modeli uspoređuju s ljudskim liječnicima.
U jednom eksperimentu, istraživači su se fokusirali na 76 pacijenata koji su došli u hitnu službu Beth Israel, uspoređujući dijagnoze koje su dali dvojica liječnika interne medicine s onima koje su generirali OpenAI modeli o1 i 4o. Ove dijagnoze su procijenili još dvojica liječnika, koji nisu znali koje su dijagnoze došle od ljudi, a koje od AI.
“Na svakoj dijagnostičkoj točki, o1 je ili bio nominalno bolji ili na razini s dvojicom liječnika i 4o,” navodi se u studiji, dodajući da su razlike “bile posebno izražene na prvoj dijagnostičkoj točki (početna triža u hitnoj), gdje je dostupno najmanje informacija o pacijentu i postoji najveća hitnost da se donese ispravna odluka.”
U priopćenju za medije Harvard Medical School o studiji, istraživači su naglasili da nisu “pripremali podatke na bilo koji način” — AI modeli su dobili iste informacije koje su bile dostupne u elektroničkim medicinskim evidencijama u trenutku svake dijagnoze.
Na temelju tih informacija, o1 model je uspio ponuditi “točnu ili vrlo blisku dijagnozu” u 67% slučajeva triže, u usporedbi s jednim liječnikom koji je imao točnu ili blisku dijagnozu 55% vremena, i s drugim koji je pogodio 50% vremena.
“Testirali smo AI model gotovo protiv svih mjerila, i prevazišao je prethodne modele i naše liječničke osnovice,” rekao je Arjun Manrai, koji vodi AI laboratorij na Harvard Medical School i jedan je od glavnih autora studije, u priopćenju.
Da budemo jasni, studija nije tvrdila da je AI spreman donositi odluke o životu i smrti u hitnoj službi. Umjesto toga, navela je da nalazi pokazuju “hitnu potrebu za prospektivnim ispitivanjima kako bi se procijenile ove tehnologije u stvarnim postavkama zdravstvene skrbi.”
Istraživači su također napomenuli da su proučavali kako modeli funkcioniraju kada su im pružene informacije temeljen na tekstu, te da “postojeće studije sugeriraju da su trenutni temeljni modeli ograničeniji u rasuđivanju nad ne-tekstualnim unosima.”
Adam Rodman, liječnik iz Beth Israela koji je također jedan od glavnih autora studije, upozorio je Guardian da trenutno “ne postoji formalni okvir odgovornosti” u vezi s AI dijagnozama, i da pacijenti i dalje “žele da im ljudi pomognu u životnim ili smrtnim odlukama [i] da ih vode kroz izazovne odluke o liječenju.”
U objavi o studiji, Kristen Panthagani, liječnica hitne medicine, rekla je da je ovo “zanimljiva studija o AI koja je dovela do nekih pretjeranih naslova,” posebno jer je uspoređivala dijagnoze AI s dijagnozama liječnika interne medicine, a ne liječnika hitne medicine.
“Ako ćemo uspoređivati AI alate s kliničkim sposobnostima liječnika, trebali bismo početi uspoređivati s liječnicima koji zapravo prakticiraju tu specijalnost,” rekla je Panthagani.


