Novi alat veštačke inteligencije predviđa oblik jedne milijarde proteina
Atlas otvorenog koda generisan pomoću AI alata pod nazivom ESMFold2 uveliko proširuje poznati proteinski univerzum.
Novi alat veštačke inteligencije napravio je atlas sa više od jedne milijarde predviđenih proteinskih struktura i milijardama proteinskih sekvenci.
Bazu podataka ESM Atlas predstavili su istraživači biomedicinskog instituta Biohub koji su u San Francisku ustanovili Mark Zakerberg, osnivač Fejsbuka, i njegova supruga Prisila Čan, lekar i pedagog.
Atlas nadmašuje AlphaFold bazu podataka za više od 800 miliona stavki, a prethodni ESM Atlas za oko 300 miliona. Predviđanja su napravljena pomoću AI modela ESMFold2, za koji se tvrdi da prevazilazi performanse AlphaFold3, najnovije verzije Guglovog DeepMind sistema, kao i drugih AI za predviđanje strukture proteina.
„Ovaj atlas pokazuje totalnost biologije proteina, a naročito delove koji su najnepoznatiji“, kaže Aleks Rivs iz Biohuba. „Mislimo da će ovo biti zaista moćna osnova za otkrivanje nove biologije“.
Drugi naučnici su impresionirani rezultatima, posebno jer ESMFold2 predstavlja potpuno otvoren kod. Međutim, model Biohuba ulazi na sve ispunjenije polje, gde konkurentni modeli otvorenog i zatvorenog koda ostvaruju napredak izuzetnom brzinom.
Predviđanje antitela
ESMFold2 je zasnovan na modelu „proteinskog jezika“ koji je treniran na milijardama proteina iz drveta života. Uključuje „metagenomske“ sekvence iz tla, okeana i drugih životnih sredina.
Takmiči se sa postojećim metodama, uključujući AlphaFold3, u određivanju tačne strukture kompleksa proteina u interakciji — uključujući molekule antitela koji se vezuju za svoje antigenske molekularne mete.
Istraživači opisuju kako su koristili ESMFold2 za dizajniranje novih antitela i drugih proteina koji se mogu snažno vezati za proteine uključene u kancere i imunološka stanja. Kad su kreirani i testirani u laboratoriji, veliki broj je funkcionisao kako je predviđeno.
Ovaj alat je upotrebljen za kreiranje atlasa koji sadrži 1,1 milijardu predviđenih proteinskih struktura, kao i informacije o sekvencama 6,8 milijardi proteina. Većina njih potiče od metagenomskih sekvenci koje još uvek nisu potpuno opisane.
Rivs se nada da će atlas — koji će biti slobodno dostupan — pomoći naučnicima da povežu poznate i nepoznate delove proteinskog univerzuma. Koristeći ovaj atlas, istraživači su otkrili strukturne sličnosti između CRISPR mikrobnih odbrambenih proteina i proteina za gensku modifikaciju koji je identifikovan u zemljišnoj gljivi 2023. godine i pronađen kod drugih eukariotskih vrsta.
Dopunska baza podataka
Novoobjavljeni atlas trebalo bi da bude izuzetan resurs za biologiju. Uzbudljivo je videti kako proteinski jezički modeli velikih razmera mogu da obuhvate fundamentalna pravila biologije proteina, kažu stručnjaci.
Predviđanja bi mogla pomoći istraživačima da otkriju nova proteinska savijanja i funkcije, sa implikacijama po dizajn proteina i osnovno razumevanje biologije. Međutim, prvo treba da budu evaluirana.
Pitanje je koliko dobro ESMFold2 može da predvidi strukture proteina koji se razlikuju od već poznatih. Prva verzija ESMFolda nije bila naročito dobra u predviđanju neobičnih proteinskih struktura, naročito onih iz metagenomskih podataka.
ESM Atlas može da se posmatra kao dopuna široko korišćene AlfaFold baze podataka sa više od 200 miliona proteinskih struktura, a ne kao zamena.
Predviđanja interaktivnih proteina su impresivna, ali nisu preveliko iznenađenje, kažu stručnjaci. Ranije ove godine, Isomorphic Labs iz Londona, biofarmaceutski ogranak DeepMinda, predstavio je model koji je ostvario značajan napredak u predviđanju takvih struktura. Modeli otvorenog koda sa kojima ESMFold2 nije direktno poređen takođe su postigli impresivne rezultate u predviđanju interakcija proteina.
Potpuno otvoren kod ESMFold2, bez ograničenja za komercijalnu upotrebu, znači da bi mogao naći široku primenu. Mnogi ljudi će biti uzbuđeni da ga isprobaju.
(Telegraf Nauka/Nature)
Video: Intervju sa Edvardom Fergusonom
Nauka Telegraf zadržava sva prava nad sadržajem. Za preuzimanje sadržaja pogledajte uputstva na stranici Uslovi korišćenja.