AI Tool na Nag-generate ng High-Quality na Imahe nang Mas Mabilis kaysa sa mga Kasalukuyang Paraan
Ang kakayahang makabuo ng mataas na kalidad ng mga imahe nang mabilis ay mahalaga sa mga simulated environments na ginagamit upang sanayin ang mga self-driving cars, upang makaiwas sa mga hindi inaasahang panganib at maging mas ligtas sa mga tunay na kalsada.
Gayunpaman, ang mga AI techniques na ginagamit upang makabuo ng mga imahe ay may mga limitasyon. Ang mga diffusion models, tulad ng Stable Diffusion at DALL-E, ay kilala sa kanilang kakayahang makabuo ng mga detalyadong imahe, ngunit mabagal at matinding magastos sa computational resources. Sa kabilang banda, ang mga autoregressive models, na ginagamit sa mga LLM tulad ng ChatGPT, ay mas mabilis ngunit madalas ay nagkakaroon ng mga pagkakamali sa kalidad ng imahe.
Ang isang bagong approach na binuo ng mga mananaliksik mula sa MIT at NVIDIA ay pinagsama ang pinakamagandang aspeto ng parehong mga metodo. Ang kanilang hybrid image-generation tool, na tinatawag na HART (Hybrid Autoregressive Transformer), ay gumagamit ng isang autoregressive model upang mabilis na makuha ang pangkalahatang larawan at isang maliit na diffusion model upang pinuhin ang mga detalye ng imahe.
Pagbuo ng Imahe nang Mas Mabilis at Mas Mababang Paggamit ng Enerhiya
Sa HART, maaaring makabuo ng mga imahe na may parehong kalidad ng mga imahe mula sa diffusion models, ngunit mga siyam na beses itong mas mabilis. Ang proseso ng paggawa ng imahe ay nangangailangan ng mas kaunting computational resources kaysa sa mga tradisyunal na diffusion models, kaya’t kayang magpatakbo ng HART sa mga laptop o smartphone. Isang natural na language prompt lang ang kailangan ng isang user upang makabuo ng imahe sa interface ng HART.
Mga Aplikasyon ng HART:
- Pagtulong sa mga researcher na mag-train ng mga robot upang magsagawa ng mga complex real-world tasks.
- Pag-tulong sa mga designer na gumawa ng mga striking scenes para sa mga video games.
Sabi ni Haotian Tang, co-lead author ng papel tungkol sa HART:
Kung nagpipinta ka ng landscape, at ipininta mo ang buong canvas nang buo, maaaring hindi ito magmukhang maganda. Pero kung ipininta mo ang malaking larawan at pagkatapos ay pinuhin ito gamit ang mas maliit na brush strokes, mas maganda ang magiging kinalabasan.
Pinagsamang Teknik ng Autoregressive at Diffusion Models
Ang mga diffusion models ay kilala sa paggawa ng mga highly detailed na imahe. Ang mga ito ay gumagamit ng isang iterative process kung saan nag-predict ng random noise sa bawat pixel, saka ito “de-noised” o tinatanggal ang noise hanggang makabuo ng isang malinis na imahe. Gayunpaman, ang ganitong proseso ay matagal at computationally expensive.
Samantalang ang mga autoregressive models, tulad ng mga ginagamit sa text generation ng LLMs, ay mas mabilis ngunit nagkakaroon ng errors sa imahe dahil sa information loss mula sa compression. Sa HART, ginagamit ang autoregressive model upang mag-predict ng compressed image tokens, at pagkatapos ay gumagawa ng residual tokens gamit ang isang maliit na diffusion model upang punan ang mga detalye na na-miss ng autoregressive model.
Sabi ni Tang:
Nagkakaroon kami ng malaking pagpapabuti sa kalidad ng reconstruction. Natutunan ng residual tokens ang mga high-frequency details, tulad ng edges ng isang object, o buhok, mata, at bibig ng isang tao.
Dahil ang diffusion model ay gumagana lamang sa mga residual tokens, kaya’t kailangan lamang ng 8 steps upang makabuo ng isang imahe, kumpara sa 30 o higit pang steps ng mga tradisyunal na diffusion models.
Pagganap ng HART sa mga Malalaking Models
Habang binubuo ang HART, nahirapan ang mga mananaliksik sa pagsasama ng diffusion model upang mapabuti ang autoregressive model. Napag-alaman nila na mas epektibo kung ang diffusion model ay ginagamit lamang sa huling bahagi ng proseso upang ayusin ang mga residual tokens, kaya’t nagkaroon ng malaking pagpapabuti sa kalidad ng imahe.
Ang HART, na gumagamit ng autoregressive transformer model na may 700 milyon na parameters at isang lightweight diffusion model na may 37 milyon na parameters, ay kayang makabuo ng mga imahe na may parehong kalidad ng mga imahe mula sa diffusion model na may 2 bilyong parameters, ngunit mas mabilis ng siyam na beses at nangangailangan ng 31% na mas kaunting computational resources.
Pag-usbong ng Vision-Language Models
Dahil ang HART ay gumagamit ng autoregressive model, mas madali itong mag-integrate sa mga bagong vision-language models, kung saan ang mga user ay maaaring makipag-ugnayan gamit ang natural na wika upang mag-request ng mga imahe o iba pang output.
Ang mga mananaliksik ay may plano na gamitin ang HART sa video generation at audio prediction sa hinaharap.
Pinondohan ng MIT at NVIDIA
Ang research na ito ay pinondohan ng MIT-IBM Watson AI Lab, MIT at Amazon Science Hub, MIT AI Hardware Program, at U.S. National Science Foundation. Ang GPU infrastructure na ginamit sa training ng model ay ipinagkaloob ng NVIDIA.
0 Mga Komento