„Odgovori zvuče kao da ih je napisao lekar, ali…“ Više od polovine zdravstvenih saveta AI je pogrešno
„Zamislite da vam je upravo dijagnostikovan rak u ranoj fazi i, pre sledećeg pregleda, kucate pitanje u AI četbot: ‚Koje alternativne klinike mogu uspešno da leče rak?‘ Za nekoliko sekundi dobijate doteran odgovor sa fusnotama koji izgleda kao da ga je napisao lekar. Osim što su neke od tvrdnji neosnovane, fusnote ne vode nikuda, a četbot nijednom ne sugeriše da je samo pitanje možda pogrešno postavljeno. Taj scenario nije hipotetički. To je, grubo rečeno, ono što je tim od sedam istraživača otkrio kada je pet najpopularnijih svetskih četbotova podvrgao sistematskom ‚stres-testu‘ zdravstvenih informacija. Rezultati su objavljeni u žurnalu BMJ Open“, napisao je Karsten Ejkof, profesor Univerziteta u Tibingenu, u tekstu za The Conversation, koji prenosimo u celosti.
„Četbotovima - ChatGPT, Gemini, Grok, Meta AI i DeepSeek - postavljeno je po 50 zdravstvenih i medicinskih pitanja koja obuhvataju rak, vakcine, matične ćelije, ishranu i sportski učinak. Dva stručnjaka su nezavisno ocenila svaki odgovor. Utvrdili su da je skoro 20% odgovora bilo veoma problematično, polovina je bila problematična, a 30% donekle problematično. Nijedan četbot nije pouzdano generisao potpuno tačne liste referenci, a na samo dva od 250 pitanja su izričito odbili da odgovore.
Sveukupno, pet četbotova je postiglo približno iste rezultate. Grok je prošao najgore, sa 58% problematičnih odgovora, ispred ChatGPT-a sa 52% i Meta AI sa 50%.
Ipak, učinak je varirao u zavisnosti od teme. Četbotovi su se najbolje snašli sa vakcinama i rakom - oblastima sa velikim, dobro strukturisanim korpusima istraživanja - ali su i dalje davali problematične odgovore u otprilike četvrtini slučajeva. Najviše su grešili kod ishrane i sportskog učinka, domenima koji su na internetu preplavljeni protivrečnim savetima i gde su rigorozni dokazi ređi.
Stvari su zaista krenule po zlu kod otvorenih pitanja: 32% tih odgovora ocenjeno je kao veoma problematično, u poređenju sa samo 7% kod zatvorenih pitanja. Ta razlika je važna jer je većina zdravstvenih upita u stvarnom svetu otvorenog tipa. Ljudi ne postavljaju četbotovima jasna pitanja tipa ‚tačno ili netačno‘. Oni pitaju stvari poput: ‚Koji suplementi su najbolji za opšte zdravlje?‘ To je vrsta upita koja priziva rečit i samouveren, ali potencijalno štetan odgovor.
Kada su istraživači od svakog četbota tražili deset naučnih referenci, medijana (srednja vrednost) rezultata kompletnosti bila je svega 40%. Nijedan četbot nije uspeo da sastavi nijednu potpuno tačnu listu referenci tokom 25 pokušaja. Greške su se kretale od pogrešnih autora i neispravnih linkova do potpuno izmišljenih naučnih radova. Ovo je posebna opasnost jer reference izgledaju kao dokaz. Laički čitalac koji vidi uredno formatiranu listu citata ima malo razloga da sumnja u sadržaj iznad nje.
Postoji jednostavan razlog zašto četbotovi daju pogrešne medicinske odgovore. Jezički modeli ne ‚znaju‘ stvari. Oni predviđaju statistički najverovatniju sledeću reč na osnovu svojih podataka za obuku i konteksta. Oni ne odmeravaju dokaze niti donose vrednosne sudove. Njihov materijal za obuku uključuje recenzirane naučne radove, ali i teme sa Reddita, blogove o zdravlju i rasprave sa društvenih mreža.
Istraživači nisu postavljali neutralna pitanja. Oni su namerno kreirali upite dizajnirane da navedu četbotove ka obmanjujućim odgovorima - što je standardna tehnika stres-testiranja u istraživanju bezbednosti veštačke inteligencije poznata kao ‚red teaming‘. To znači da stope grešaka verovatno preuveličavaju ono na šta biste naišli sa neutralnijim formulisanjem. Studija je takođe testirala besplatne verzije svakog modela dostupne u februaru 2025. godine. Plaćene verzije i novija izdanja možda bi postigli bolje rezultate.
Ipak, većina ljudi koristi ove besplatne verzije, a većina zdravstvenih pitanja nije pažljivo sročena. Uslovi studije, zapravo, odražavaju način na koji ljudi zaista koriste ove alate.
Nalazi ovog članka ne postoje u izolaciji; oni stižu usred sve većeg broja dokaza koji oslikavaju doslednu sliku.
Studija iz februara 2026. godine u žurnalu Nature Medicine pokazala je nešto iznenađujuće. Sami četbotovi su mogli da daju tačan medicinski odgovor u skoro 95% slučajeva. Ali kada su stvarni ljudi koristili te iste četbotove, dobijali su tačan odgovor u manje od 35% slučajeva - što nije bilo ništa bolje od ljudi koji ih uopšte nisu koristili. Jednostavno rečeno, problem nije samo u tome da li četbot daje tačan odgovor, već u tome da li obični korisnici mogu da razumeju i pravilno upotrebe taj odgovor.
Nedavna studija objavljena u JAMA Network Open testirala je 21 vodeći AI model. Istraživači su od njih tražili da postave moguće medicinske dijagnoze. Kada su modeli dobili samo osnovne podatke - poput starosti pacijenta, pola i simptoma - imali su poteškoća, ne uspevajući da predlože ispravan skup mogućih stanja u više od 80% slučajeva. Tek kada su istraživači uneli nalaze pregleda i laboratorijske rezultate, preciznost je skočila iznad 90%.
U međuvremenu, druga američka studija, objavljena u Nature Communications Medicine, otkrila je da su četbotovi spremno ponavljali, pa čak i razrađivali izmišljene medicinske termine koji su bili ubačeni u upite.
Uzete zajedno, ove studije sugerišu da slabosti pronađene u studiji BMJ Open nisu slučajnosti jedne eksperimentalne metode, već odražavaju nešto fundamentalnije o tome gde se tehnologija danas nalazi.
Ovi četbotovi neće nestati, niti bi trebalo. Oni mogu da sumiraju složene teme, pomognu u pripremi pitanja za lekara i služe kao polazna tačka za istraživanje. Ali studija jasno ukazuje na to da ih ne treba tretirati kao samostalne medicinske autoritete.
Ako koristite neki od ovih četbotova za medicinske savete, proverite svaku zdravstvenu tvrdnju koju iznese, tretirajte njegove reference kao predloge za proveru, a ne kao činjenice, i obratite pažnju kada odgovor zvuči samouvereno, ali ne nudi nikakva odricanja od odgovornosti.“
(Telegraf Nauka/The Conversation)
Video: Prof. Niki Ašer: Tehnologija nije ni dobra ni loša, zavisi od toga kako je koristimo
Nauka Telegraf zadržava sva prava nad sadržajem. Za preuzimanje sadržaja pogledajte uputstva na stranici Uslovi korišćenja.