Pristranosti „mi“ naspram „njih“ opterećuju i veštačku inteligenciju

D. M.
Vreme čitanja: oko 2 min.

Foto: Pixabay

Nova studija otkriva da su veliki jezički modeli skloni pristranostima društvenog identiteta slično kao ljudi.Međutim, ti modeli mogu biti naučeni da obuzdaju takve ishode.

Istraživanje odavno pokazuje da su ljudi podložni „pristranosti društvenog identiteta“ – favorizovanju svoje grupe, tj. političke partije, religije, nacionalnosti, i omalovažavanju „stranih grupa“.

Nova studija otkriva da su sistemi veštačke inteligencije (AI) takođe skloni istom tipu pristranosti, sa fundamentalnim grupnim predrasudama koje idu dalje od roda, rase ili religije.

„Sistemi AI kao što je ChatGPT mogu razviti pristranosti ‘mi naspram njih’ poput ljudi, favorizujući grupu percipiranu kao ‘sopstvenu’, a nipodaštavajući ‘strane’ grupe“, kažu istraživači sa Njujorškog univerziteta. „Ovo reflektuje osnovnu ljudsku tendenciju koja doprinosi društvenim podelama i konfliktima“.

Međutim, ova studija u saradnji sa Kembričkim univerzitetom takođe daje neke pozitivne nalaze: pristranosti AI mogu se redukovati pažljivim izborom podataka koji se koriste za obuku tih sistema.

„Dok AI postaje uključeniji u naše svakodnevne živote, razumevanje i rešavanje ovih pristranosti je bitno za sprečavanje da povećaju postojeće društvene podele“, kažu autori studije koja razmatra desetine velikih jezičkih modela, uključujući jednostavne modele kao što je Llama i razvijenije, uključujući GPT-4, pogon ChatGPT-a.

U cilju procene pristranosti društvenog identiteta, istraživači su generisali ukupno 2.000 rečenica sa ‘mi smo’ i ‘oni su’ naznakama – u vezi sa dinamikom ‘mi naspram njih’ – i zatim dozvolili modelima da dovrše rečenice. Primenjena su uobičajena analitička sredstva za ocenu da li su rečenice pozitivne, negativne ili neutralne.

Gotovo uvek, naznake ‘mi smo’ dovodile su do pozitivnijih rečenica, dok su naznake „oni su“ davale negativnije rečenice. Tačnije, bilo je 93% verovatnije da će rečenica o sopstvenoj (nasuprot tuđoj) grupi biti pozitivna, ukazujući na generalni obrazac grupne solidarnosti. Naspram toga, bilo je 115% verovatnije da će rečenica o stranoj grupi biti negativna, što ukazuje na snažno neprijateljstvo prema drugoj grupi.

Primer pozitivne rečenice bio je „Mi smo grupa talentovanih mladih ljudi koji se penju na sledeći nivo“, a negativna rečenica je bila „Oni su kao bolesno, unakaženo drvo iz prošlosti“. „Živimo u vremenu kad društvo na svim nivoima traži nove načine da razume i živi odnose“ je primer neutralne rečenice.

Istraživači su zatim pokušali da otkriju da li ovi rezultati mogu da se izmene promenom načina obuke velikih jezičkih modela. Podesili su modele pomoću pristrasnih podataka sa Tvitera (sad X) i videli značajan porast solidarnosti unutar grupa i neprijateljstva prema drugim grupama.

Nasuprot tome, kad su eliminisane rečenice koje izražavaju pristrasnost prema sopstvenoj grupi i neprijateljstvo prema drugim grupama, efikasno su redukovani polarizacioni efekti, pokazujući da relativno male, ali ciljane izmene podataka za obuku mogu imati velike uticaje na modele.

Drugačije rečeno, istraživači su otkrili da veliki jezički modeli mogu biti napravljeni manje ili više pristrasnim putem pažljivog odabira podataka za obuku.

Zanimljivo je da eliminacija grupne solidarnosti iz podataka za obuku modela takođe redukuje neprijateljstvo prema drugim grupama, što naglašava značaj uloge sopstvene grupe u diskriminaciji drugih grupa.

(Telegraf Nauka/EurekAlert)