Istraživači testiraju da li veštačka inteligencija može razumeti književnost
Čak i uz sve nedavne napretke u sposobnostima velikih jezičkih modela (kao što je ChatGPT) da nam pomažu u razmišljanju, istraživanju, sumiranju i učenju složenih i tehničkih tekstova, pitanje je kako oni razumeju pripovedanje i književnost.
Istraživači iz Škole za inženjering Kolumbijskog univerziteta u Njujorku bave se ovim pitanjem pomoću novog, etički zasnovanog okvira evaluacije.
„Pre nego što možemo stvarno verovati analitičkim sposobnostima velikih jezičkih modela, potrebni su nam dokazi o tome šta oni mogu, a šta ne mogu da urade“, kažu istraživači. „Ako veliki jezički modeli treba da služe kao alati za ljudsko istraživanje, prvo moramo razumeti dubinu i granice njihovih analitičkih sposobnosti, uključujući domene poput naracije i književnosti“.
Novi okvir za evaluaciju
Studija je procenjivala performanse najrazvijenijih jezičkih modela — GPT-4, Claude-2.1 i LLaMA-2-70B — u zadatku sumiranja kratke priče. Za razliku od mnogih prethodnih evaluacija koje su se oslanjale na javno dostupne tekstove koji mogu biti uključeni u podatke za obuku modela, ovaj projekat je uključio kontrolisani, originalni skup podataka.
Istraživači su sarađivali direktno sa piscima, koji su priložili svoje neobjavljene kratke priče. Pisci su zatim ocenili kvalitet izvoda koje su proizveli modeli.
Pomoću kvantitativnih i kvalitativnih metoda zasnovanih na teoriji naracije, analiza je pokazala da su sva tri modela napravila greške tačnosti u više od 50% slučajeva i da su postojano imali teškoće sa specifičnošću i tumačenjem složenog podteksta ili nelinearnih narativnih struktura.
„Može izgledati da modeli razumeju priču, ali su njihovi izvodi nepredvidivi pošto se oslanjaju na verovatnoće. Vešt ljudski književni analitičar bi pružio dosledno jake uvide, ali čak i najbolji model je samo otprilike 50% uspešan u pouzdanoj analizi bilo koje priče“, kažu istraživači.
Ovi nalazi naglašavaju ograničenja trenutnih velikih jezičkih modela u intelektualnim i kreativnim kontekstima koji zahtevaju pažljivo čitanje i interpretativnu osetljivost.
Iako takvi sistemi mogu služiti kao korisna sredstva, istraživači upozoravaju da se ne treba oslanjati na njih u cilju suptilne književne analize ili drugih zadataka koji zahtevaju ozbiljno kontekstualno razumevanje. Daje se podrška ljudskoj, stručnoj evaluaciji.
Više od empirijskih nalaza
Etička razmatranja su bila integralni deo studije. Pisci su imali potpun uvid u korišćenje njihovog rada, dobili su nadoknadu za svoj doprinos, a njihova intelektualna svojina je pažljivo zaštićena. Projekat se fokusirao na razumevanje i analizu naracije, a ne na generisanje teksta, odražavajući „posvećenost odgovornoj istraživačkoj praksi sa poštovanjem“.
Projekat predstavlja novu metodologiju evaluacije jezičkih modela na sadržaju za koji je garantovano da će biti izuzet iz podataka za njihovu obuku.
Direktnim radom sa stručnjacima, u ovom slučaju profesionalnim piscima, studija demonstrira pristup koji omogućava pouzdaniju procenu interpretativnih i analitičkih sposobnosti velikih jezičkih modela. Ovaj okvir nudi ponovljiv model za buduće istraživanje o razumevanju naracije i drugim oblicima stručne evaluacije.
„Nadamo se da će stručni ljudski uvid usmeravati način na koji procenjujemo velike jezičke modele, sa ljudima u centru tehnološkog razvoja“, kažu autori studije.
(Telegraf Nauka/TechXplore)