Najnapredniji AI sistemi rešavali čuveni psihološki test: Rezultati su KATASTROFALNI i zabrinjavajući

A. I.
A. I.    
Čitanje: oko 3 min.
  • 0

Decenijama star psihološki test razotkrio je iznenađujuću slabost u sposobnosti čak i najnaprednijih sistema veštačke inteligencije (AI) da ostanu fokusirani.

Istraživači, koje je predvodio Suketu Patel, analizirali su kako veliki jezički modeli (LLM), što je tehnologija iza sistema poput ChatGPT-5, Claude i Gemini, rešavaju dobro poznati kognitivni izazov nazvan Strupov zadatak. Nalazi sugerišu da, iako AI može pružiti impresivne rezultate na mnogim složenim zadacima, može imati poteškoća da održi fokus kada je duže vreme suočen sa protivrečnim informacijama, piše SciTechDaily.

Šta je Strupov zadatak?

Strupov zadatak je klasičan psihološki eksperiment koji se decenijama koristi za proučavanje pažnje i mentalne kontrole. U testu, učesnici vide reči koje imenuju boje, kao što su „crvena“ ili „plava“, prikazane u obojenom mastilu.

Ponekad se reč i boja mastila podudaraju. Na primer, reč „crvena“ može biti ispisana crvenim mastilom. Drugi put su u konfliktu, na primer kada se reč „crvena“ pojavi ispisana plavim mastilom. Od učesnika se traži da identifikuju boju mastila, dok ignorišu značenje same reči.

Iako ovo zvuči jednostavno, stvara se mentalni konflikt. Većina ljudi je veoma uvežbana da automatski čita reči, pa suzbijanje tog instinkta zahteva ono što psiholozi nazivaju izvršna kontrola. To se odnosi na sposobnost mozga da se fokusira na cilj, odupre ometanjima i nadjača automatske odgovore.

Ljudima je obično potrebno malo više vremena da odgovore kada se reč i boja ne podudaraju, što je fenomen poznat kao Strupov efekat. Međutim, čak i kada zadatak postane dugotrajan, ljudi generalno održavaju visoku preciznost i ostaju fokusirani na uputstva.

AI u početku radi dobro

Da bi videli kako bi se moderni AI sistemi nosili sa istim izazovom, istraživači su testirali nekoliko vodećih jezičkih modela koristeći liste reči koje označavaju boje.

Kada su im predstavljene kratke liste od pet reči čija su se značenja sukobljavala sa bojama mastila, modeli su se pokazali iznenađujuće dobro.

GPT-4o je postigao tačnost od 91% na ovim kraćim testovima. Claude 3.5 Sonnet je takođe pokazao snažne rezultate. Na prvi pogled, rezultati su sugerisali da AI sistemi mogu uspešno da prate zadatak i ignorišu ometajuća značenja reči.

Pad performansi sa produžavanjem lista

Međutim, slika se dramatično promenila kako su istraživači povećavali dužinu lista reči. Tačnost modela GPT-4o pala je sa 91% kod pet reči na 57% kod deset reči. Do trenutka kada je lista dostigla 40 reči, tačnost je pala na svega 15%. Claude 3.5 Sonnet se pokazao otpornijim, održavajući stabilne performanse kroz liste od 20 reči. Međutim, i on je doživeo oštar pad, spustivši se na 24% tačnosti pred listom od 40 reči. Istraživači su primetili slične obrasce kod modela GPT-5, Claude Opus 4.1 i Gemini 2.5.

Performanse su postale još gore kada su se podudarne i nepodudarne reči pojavile zajedno u istoj listi. U tim uslovima, tačnost na nepodudarnim stavkama pala je skoro na nulu.

AI finansijsko savetovanje Foto: Shutterstock/HAKINMHAN

Zašto ljudi i AI reaguju različito

Rezultati ukazuju na važnu razliku između ljudske kognicije i načina na koji veliki jezički modeli obrađuju informacije.

Poput ljudi, AI sistemi su praktično prošli mnogo više obuke u prepoznavanju i tumačenju reči nego u identifikovanju boja. To stvara prirodnu tendenciju da se fokusiraju na napisanu reč. Međutim, ljudi su generalno sposobni da suzbiju taj automatski odgovor i ostanu fokusirani na zadatak koji im je zadat, čak i kroz duge nizove stavki.

Nasuprot tome, jezički modeli su se, kako je test odmicao, sve više vraćali čitanju reči umesto imenovanju boja. Drugim rečima, delovalo je kao da gube iz vida prvobitni cilj.

Prema istraživačima, ovaj slom sugeriše da se mehanizmi pažnje koje koriste AI sistemi zasnovani na transformerima fundamentalno razlikuju od bioloških sistema pažnje u ljudskom mozgu.

Ograničenja AI

Veliki jezički modeli pokazali su izuzetne sposobnosti u pisanju, zaključivanju, programiranju i konverzaciji. Ipak, studije poput ove naglašavaju da impresivni rezultati ne znače nužno da AI obrađuje informacije na isti način kao ljudi.

Nalazi sugerišu da moderna veštačka inteligencija može imati skrivene slabosti kada zadaci zahtevaju dugotrajan fokus, inhibiciju automatskih odgovora i dugoročno održavanje specifičnih uputstava.

Kako sistemi veštačke inteligencije postaju sve više integrisani u svakodnevicu, razumevanje ovih ograničenja može da bude podjednako važno kao i merenje njihove snage.

Studija je objavljena u žurnalu PNAS Nexus.

(Telegraf Nauka/SciTechDaily)

Video: Intervju sa Edvardom Fergusonom

Podelite vest:

Pošaljite nam Vaše snimke, fotografije i priče na broj telefona +381 64 8939257 (WhatsApp / Viber / Telegram).

Nauka Telegraf zadržava sva prava nad sadržajem. Za preuzimanje sadržaja pogledajte uputstva na stranici Uslovi korišćenja.

Komentari

  • Eur: <% exchange.eur %>
  • Usd: <% exchange.usd %>