Balak ng Google na Pagsamahin ang Gemini at Veo AI Models, ayon kay DeepMind CEO Demis Hassabis
Isang mas matalinong digital assistant
Sa isang panayam sa Possible — isang podcast na pinangungunahan ni Reid Hoffman, co-founder ng LinkedIn — sinabi ni Demis Hassabis, CEO ng Google DeepMind, na balak ng Google na pagsamahin ang mga modelong Gemini at Veo upang mapahusay ang kakayahan ng AI sa pag-unawa sa pisikal na mundo. Pahayag ni Hassabis:
Binuo namin ang Gemini bilang isang multimodal foundation model mula pa sa simula. Ang layunin ay magkaroon ng isang pangkalahatang digital assistant na tunay na makatutulong sa mga gawain sa totoong mundo.
Pagsulong sa tinatawag na “omni models”
Ang industriyang AI ay paunti-unting tumutungo sa mga 'omni models' — mga modelong kayang makaunawa at makabuo ng maraming uri ng media, mula teksto at imahe hanggang audio at video.
Ang pinakabagong Gemini models ng Google ay marunong nang bumuo ng audio, bukod sa imahe at teksto. Samantala, ang ChatGPT ng OpenAI ay kaya nang gumawa ng mga imahe gaya ng Studio Ghibli-style art, habang ang Amazon ay nag-anunsyo rin ng plano nitong maglunsad ng "any-to-any" AI model ngayong taon.
Video training mula sa YouTube
Ang mga ganitong omni models ay nangangailangan ng napakalawak na training data — kabilang ang mga larawan, video, audio, at teksto. Sa panayam, binanggit ni Hassabis na ang video data para sa Veo, partikular ang Veo 2, ay nanggagaling sa YouTube — isang platform na pag-aari ng Google.
Sa panonood ng napakaraming YouTube videos, [natututo ang Veo 2] ng mga bagay tulad ng physics ng mundo.
Sa isang nakaraang ulat ng TechCrunch, kinumpirma ng Google na maaaring ginagamit ang ilang YouTube content para sanayin ang mga AI models nito, alinsunod sa kasunduan nila sa mga YouTube creators. Iniulat din na pinalawak ng kumpanya ang kanilang terms of service noong nakaraang taon upang makakuha ng mas maraming datos para sa AI training.
Ano ang kahulugan nito para sa hinaharap ng AI?
Ang pagsasanib ng Gemini at Veo ay nagpapahiwatig ng mas integratibong direksyon ng AI development — kung saan ang isang modelo ay may mas malalim na pag-unawa sa lahat ng anyo ng impormasyon. Ang ganitong direksyon ay maaaring magbunga ng mas intelligent at kapaki-pakinabang na AI assistants na maaaring gamitin sa iba't ibang larangan gaya ng edukasyon, pelikula, agham, at negosyo.
Sa patuloy na kompetisyon ng mga AI giants tulad ng Google, OpenAI, at Amazon, malinaw na pabilis nang pabilis ang takbo ng inobasyon — at ang tagumpay ay tila mapupunta sa modelong kayang unawain at manipulahin ang lahat ng uri ng media sa isang platform.
0 Mga Komento