Noong Abril 2024, ipinakilala ng Microsoft ang VASA-1, isang AI system na kayang pagalawin at nagsasalita ang kahit anong larawan. Ngunit ngayon, tila nalampasan na ito ng bagong teknolohiya mula sa ByteDance, ang kumpanya sa likod ng TikTok.
Gamit ang OmniHuman-1, hindi lang mukha ang nagkakaroon ng natural na galaw at pagsasalita, kundi pati na rin ang kilos ng katawan at mga galaw ng kamay. Sa pamamagitan ng isang larawan at audio input, nagagawang ipakita ng AI ang halos perpektong pagsabay ng bibig sa sinasabing salita o kanta.
Isa sa mga pinaka-kahanga-hangang halimbawa ng teknolohiyang ito ay ang video kung saan kumakanta si Taylor Swift ng Japanese theme song mula sa anime na Naruto—isang bagay na hindi niya kailanman ginawa sa totoong buhay.
Paano Gumagana ang OmniHuman-1?
Ayon sa ulat ng Business Standard, gumagamit ang OmniHuman-1 ng iba’t ibang input tulad ng larawan, tunog, teksto, at kilos ng katawan upang lumikha ng napakanatural na galaw. Ang AI ay sinanay gamit ang 19,000 oras ng video footage, dahilan kung bakit halos hindi na ito maipagkaiba sa totoong video.
Gayunpaman, may mga limitasyon pa rin ang teknolohiyang ito. Sa ilang halimbawa, makikita pa rin ang hindi perpektong pagkakasabay ng bibig sa tunog, bagama’t patuloy itong pinapahusay.
Mga Posibleng Panganib ng Teknolohiyang Ito
Dahil sa kakayahan ng OmniHuman-1 na lumikha ng makatotohanang video ng kahit sinong tao na nagsasalita o kumakanta sa anumang wika, posible itong magamit sa maling paraan. May panganib na magamit ito upang lumikha ng pekeng video ng mga kilalang personalidad para sa panlilinlang o panloloko.
Sa kabila nito, may positibong gamit din ang teknolohiyang ito. Maaari itong magamit upang pagandahin ang animasyon ng mga cartoon at video game characters, pati na rin sa larangan ng entertainment at edukasyon.
Kailan Ito Magiging Available?
Hindi pa tiyak kung kailan ilalabas sa publiko ang OmniHuman-1, o kung ilalabas nga ba ito. Ayon sa ByteDance, iniisip nila ang mga isyung pang-ethics bago ito gawing accessible sa lahat.
Gayunpaman, kung sakaling maging available ito nang wala pang sapat na regulasyon, maaaring gamitin ito upang gumawa ng pekeng video ng sinumang tao, na maaaring magsalita o kumanta ng kahit anong gusto ng lumikha nito—sa anumang wika.
Ang tanong ngayon: Handa na ba ang mundo sa ganitong uri ng teknolohiya?
0 Mga Komento