
Šokantno ponašanje veštačke inteligencije: Kazne ne sprečavaju AI da vara, samo postaje bolji u tome
Kažnjavanje veštačke inteligencije (AI) zbog obmana i štetnih akcija ne sprečava je da se ponaša na pogrešan način, samo je tera da postane bolja u prevarama. To je pokazala nova studija tima OpenAI, tvorca ChatGPT-ija.
Otkako su krajem 2022. veliki jezički mofeli (LLM) postali poznati široj javnosti, mnogi su često prijavljivali obmane i opasne sposobnosti veštačke inteligencije. Ove akcije uključuju sve od laganja, varanja i skrivanja do pretnji smrću, krađom nuklearnih šifara i stvaranjem smrtonosne pandemije, piše LiveScience.
Sada je eksperiment pokazao da je smirivanje ovog „lošeg ponašanja“ tokom treninga teže nego što se mislilo.
Istraživači u OpenAI dali su zadatak novom, još skrivenom modelu ciljeve koji mogu da budu sprovedeni laganjem, varanjem ili prečicama. Tim je otkrio da je AI prevarom povećao sopstvenu nagradu. Međutim, kažnjavanje modela nije popravilo njegovo ponašanje, samo je njegova obmana postojala manje vidljiva. Kompanija je objavila istraživanje u blogu i ono tek treba da prođe stručnu recenziju.
- Dok programeri mogu da prate i obeležavaju loše ponašanje, praćenje je veoma nepouzdano. Ako se primeni stroga kontrola, modeli uče da kriju svoje namere, a nastavljaju loše da se ponašaju – naveli su oni.
Oni su pratili modele koji koriste metodu „lanac misli“ kako bi objasnili svoju logiku. Oni tu objavljuju svoj plan sa svakim korakom koji naprave, pa je lako pratiti ih. Istraživači su koristili metode pritiska i kažnjavanja, ali su otkrili da je AI nastavio da vara, samo je postao bolji u tome i bilo je sve teže otkriti prevaru.
- Agent treniran pritiskom i dalje je naučio da hakuje, samo je varao neprimetno jer je naučio kako da skriva svoje namere u „lancu misli“ – naveli su istraživači.
(Telegraf Nauka/LiveScience)
Video: Svečana dodela priznanja projektima građanskih naučnih istraživanja
Nauka Telegraf zadržava sva prava nad sadržajem. Za preuzimanje sadržaja pogledajte uputstva na stranici Uslovi korišćenja.