Tajne kineskog AI modela otkrivene u studiji: Kako je DeepSeek R1 obučen za samo 294.000 dolara
Uspeh moćnog modela veštačke inteligencije (AI) R1 kompanije DeepSeek, koji je izazvao pad američkog tržišta akcija kada je objavljen u januaru, nije zavisio od obuke na osnovu rezultata svojih rivala, rekli su istraživači iz kineske firme. Izjava je data u dokumentima objavljenim uz recenziranu verziju modela R1, objavljenu u žurnalu Nature.
R1 je dizajniran da se istakne u zadacima „rasuđivanja“ kao što su matematika i kodiranje, i jeftiniji je rival alatima razvijenim od strane američkih tehnoloških firmi. Kao model „otvorene težine“, dostupan je svima za preuzimanje, i do sada je najpopularniji takav model na platformi AI zajednice Hugging Face, preuzet 10,9 miliona puta, piše Nature.
Rad ažurira preprint studiju postavljenu u januaru, koja opisuje kako je DeepSeek poboljšao standardni veliki jezički model (LLM) za rešavanje zadataka rasuđivanja. Njegov dopunski materijal prvi put otkriva koliko je koštala obuka R1 - ekvivalent od samo 294.000 američkih dolara. Ovo je uz 6 miliona dolara koje je kompanija, sa sedištem u Hangdžou, potrošila na izradu osnovnog LLM-a na kojem je R1 izgrađen, ali je ukupan iznos i dalje znatno manji od desetina miliona dolara za koje se veruje da su koštali rivalski modeli. DeepSeek kaže da je R1 obučen uglavnom na Nvidia H800 čipovima, koji su 2023. godine zabranjeni za prodaju Kini prema američkim kontrolama izvoza.
Stroga recenzija
Smatra se da je R1 prvi veliki LLM koji je prošao proces recenzije.
- Ovo je veoma dobrodošao presedan. Ako nemamo ovu normu javnog deljenja velikog dela ovog procesa, postaje vrlo teško proceniti da li ovi sistemi predstavljaju rizike ili ne – rekao je Luis Tunstal, inženjer mašinskog učenja u Hugging Face-u koji je recenzirao rad u Nature-u.
Kao odgovor na komentare recenzenata, tim DeepSeeka je smanjio antropomorfizaciju u svojim opisima i dodao pojašnjenja tehničkih detalja, uključujući vrste podataka na kojima je model obučen i njegovu bezbednost.
- Prolazak kroz rigorozan proces recenzije svakako pomaže u proveri validnosti i korisnosti modela. Druge firme bi trebalo da urade isto – rekao je Huan San, istraživač AI sa Državnog univerziteta Ohajo u Kolumbusu.
Glavna inovacija DeepSeeka bila je korišćenje automatizovanog pristupa pokušaja i grešaka poznatog kao čisto učenje potkrepljenja za stvaranje R1. Proces je nagrađivao model za postizanje tačnih odgovora, umesto da ga uči da sledi primere rasuđivanja koje je odabrao čovek. Kompanija kaže da je tako njen model naučio sopstvene strategije nalik rasuđivanju, kao što je kako da proveri svoje radnje bez praćenja taktike propisane od strane čoveka. Da bi se povećala efikasnost, model je takođe ocenjivao sopstvene pokušaje koristeći procene, umesto da koristi poseban algoritam za to, tehniku poznatu kao optimizacija grupne relativne politike.
- Model je bio prilično uticajan među istraživačima AI. Skoro sav rad u 2025. do sada koji sprovodi učenje potkrepljenja u LLM-ovima možda je na ovaj ili onaj način bio inspirisan R1 – rekao je San.
Tehnika obuke
Medijski izveštaji u januaru sugerisali su da su istraživači iz OpenAI-a, kompanije sa sedištem u San Francisku, Kalifornija, koja je stvorila ChatGPT i seriju modela rasuđivanja 'o', mislili da je DeepSeek koristio izlaze OpenAI modela za obuku R1, metodu koja je mogla da ubrza sposobnosti modela uz korišćenje manje resursa.
DeepSeek nije objavio svoje podatke o obuci kao deo rada. Ali, u razgovorima sa recenzentima, istraživači firme su izjavili da R1 nije učio kopiranjem primera rasuđivanja koje su generisali OpenAI modeli. Međutim, priznali su da je, kao i većina drugih LLM-ova, osnovni model R1 obučen na vebu, tako da je apsorbovao sav AI-generisani sadržaj koji je već postojao na internetu.
- Ovo pobijanje je jednako uverljivo kao i ono što bismo mogli videti u bilo kojoj publikaciji – dodao je San.
Tunstal dodaje da iako ne može biti 100% siguran da R1 nije obučen na OpenAI primerima, pokušaji replikacije drugih laboratorija sugerišu da je DeepSeek-ov recept za rasuđivanje verovatno dovoljno dobar da to ne mora da radi.
- Mislim da je sada prilično jasno da možete dobiti vrlo visoke performanse samo koristeći čisto podržano učenje - kaže on.
Za istraživače, R1 je i dalje vrlo konkurentan, kaže San. U izazovu da se završe naučni zadaci kao što su analiza i vizualizacija podataka, poznatom kao ScienceAgentBench, San i kolege su otkrili da iako R1 nije bio prvi po tačnosti, bio je jedan od najboljih modela u smislu balansa sposobnosti i cene.
Drugi istraživači sada pokušavaju da primene metode korišćene za stvaranje R1 za poboljšanje sposobnosti postojećih LLM-ova nalik rasuđivanju, kao i da ih prošire na domene izvan matematike i kodiranja, dodao je Tunstal. Na taj način, naglasio je, R1 je „pokrenuo revoluciju“.
(Telegraf Nauka/Nature)