Vreme čitanja: oko 2 min.
Veštačka inteligencija generiše govor „jednak ljudskom“ – previše opasno da bi bilo pušteno u promet
Vreme čitanja: oko 2 min.
Majkrosoftov VALL-E 2 može uverljivo reprodukovati ljudske glasove pomoću samo nekoliko sekundi audio-snimka, tvrde kreatori.
Majkrosoft je razvio novi generator govora na bazi veštačke inteligencije (AI) koji je izgleda toliko uverljiv da ne može biti pušten u promet, piše Live Science.
VALL-E 2 pretvara tekst u govor (TTS) reprodukujući glas čoveka pomoću samo nekoliko sekundi audio-snimka. Istraživači iz Majkrosofta kažu da je VALL-E 2 sposoban da generiše „precizan, prirodan govor tačnim glasom originalnog govornika, na nivou ljudskog učinka“. Drugačije rečeno, novi AI generator glasa je uverljiv kao da govori prava osoba.
VALL-E 2 predstavlja najnoviji razvoj jezičkih modela na bazi nervnog kodiranja i dekodiranja radi sineteze govora. Štaviše, VALL-E 2 postojano sintetiše visokokvalitetan govor, čak i za rečenice koje su nezgodne zbog svoje kompleksnosti ili ponavljajućih izraza, kažu kreatori.
„Ljudski nivo“ u ovom kontekstu znači da je govor koji generiše VALL-E 2 jednak kvalitetu ljudskog govora ili ga čak nadmašuje. AI to postiže pomoću dva ključna postupka.
Unapređuje način konvertovanja teksta u govor identifikujući ponavljanja „znakova“ – malih elemenata jezika kao što su reči ili delovi reči – radi sprečavanja beskrajnih petlji zvukova ili izraza tokom dekodiranja. Drugačije rečeno, ovaj postupak doprinosi prilagođavanju govornog obrasca čineći da zvuči fluidnije i prirodnije.
AI takođe popravlja efikasnost redukujući dužinu sekvence – ili broj individualnih znakova koje model procesuira u jednoj ulaznoj sekvenci. Ovo ubrzava generisanje govora i pomaže u rešavanju teškoća pri procesuiranju dugih nizova zvukova.
Istraživači ističu da kvalitet produkcije zavisi od dužine i kvaliteta govornih inputa, kao i faktora okruženja poput okolnih zvukova.
Čisto istraživački projekat
Uprkos njegovim kapacitetima, Majkrosoft neće pustiti VALL-E 2 u javnost zbog opasnosti od zloupotrebe, što koincidira sa povećanom zabrinutošću zbog kloniranja glasa i „dipfejk“ tehnologije. Druge kompanije na polju veštačke inteligencije, kao što je OpenAI, postavile su slična ograničenja u pogledu svojih tehnologija govora.
„VALL-E 2 je čisto istraživački projekat. Trenutno nemamo planove za inkorporiranje u neki proizvod ili proširenje javnog pristupa.“, kažu istraživači. „Postoji mogućnost zloupotrebe, kao što su obmanjivanje glasovne identifikacije ili imitiranje određenog govornika“.
Ipak sugerišu da će tehnologija AI govora imati praktične primene u budućnosti. „VALL-E 2 bi mogao sintetizovati govor koji čuva identitet govornika i biti upotrebljen za edukativne, zabavne, novinarske, autorske sadržaje, pristupačnost, interaktivne glasovne sisteme, prevođenje, četbotove itd“, dodaju istraživači.
„Ako se model proširi na neviđene govornike u stvarnom svetu, trebalo bi da uključuje protokol koji obezbeđuje da govornik odobrava upotrebu svog glasa i model detekcije sintetizovanog govora“.
(Telegraf Nauka/Live Science)
Video: Gruber: Zadovoljna sam saradnjom Srbije i SAD u oblasti nauke
Nauka Telegraf zadržava sva prava nad sadržajem. Za preuzimanje sadržaja pogledajte uputstva na stranici Uslovi korišćenja.