Home Google Google 推出 Dreamix:一款用文字生成影音的 AI 編輯工具
GoogleAI頭條

Google 推出 Dreamix:一款用文字生成影音的 AI 編輯工具

charles asselin m8xBv2gkU7U unsplash

隨著生成式 AI(AIGC)與 OpenAI 的 ChatGPT 盛行,最近 Google Research 推出基於文字描述的影片與圖片編輯擴散模型「Dreamix」,擁有極高的真實性。雖然擴散模型(Diffusion model)已經成功應用於圖片編輯方面,但是目前還非常少有用於影片編輯的作品,Google Dreamix 的嘗試,讓生成式 AI 成功拓展到了影片上,可以一鍵修改影片的主角與行為。

Google Dreamix:一個能夠維持高解析度的 AI 影音編輯工具

根據 Dreamix 的官方 Github 解釋,Dreamix 在推理影音時,會將原始影片的「低解析度時空訊息」與新合成的「高解析度訊息」相結合,來完成文字描述的要求。由於需要獲得與原始影片相同的解析度,Dreamix 會在原始影片上進行微調,大大提高了保真度。

黑白照片,一個正在攝影的男人

此外,Dreamix 還引入了一個新的圖像動畫框架,他們首先透過簡單的圖像處理操作,將影片轉換為靜態圖像,然後使用圖像擴散模型將其再轉換回影片。實驗結果表明,Dreamix 模型可以有效地實現基於文字描述的影片編輯,並且可以獲得比現有技術更高的保真度。

看不懂解說沒關係,我們直接來看效果。

影片編輯:直接讓影片中的狗狗換種動作

可以看到,經過 Dreamix 的編輯,原本完全沒有跳躍動作的狗狗,竟然跳起來了,而且十分自然。這是透過 AI 模擬出來的畫面。

影片編輯:直接幫狗狗戴上派對帽

我們可以看到,狗狗的頭上多了一頂紫色的派對帽子,而且還會反光。

影片編輯:美麗的花園直接「幫它失火」了

有了 AI 的輔助,讓原本的影片直接加上逼真的失火特效,也變得十分容易,只需要透過文字描述就能做到。

影片編輯:狗狗直接變貓貓

你是狗派還是貓派?小朋友才做選擇,我全都要(什麼爛梗)。現在透過 AI,能夠直接無痛讓狗狗變成貓貓了。

圖片生成影片:山水

從影片中我們可以看到,原本是靜態的遠山、小溪流,現在直接變成動畫,甚至還有水牛在動,有鳥飛過。

圖片生成影片:南極企鵝

原本只是南極的一棟房屋圖片,現在經過 AI 的輔助,國王企鵝直接從房子裡面走出來了!

連續照片生成影片:熊娃娃

原本只是一連串靜態的熊寶貝娃娃照片,現在經過 AI 的輔助熊娃娃直接動起來了!

連續照片生成影片:玩具人

原本看起來像是樂高積木的玩具人偶,現在經過連續照片,直接「活起來」跳舞了。

Dreamix 介紹他們的做法

architecture finetune
architecture applications extended

根據該團隊的描述,Dreamix 使用了一個「混合目標」,除了對原始目標進行微調外,還會對無序的幀集進行微調。

他們採用了一種深度學習中專門的注意力機制:Masked Temporal Attention,幫助模型專注於輸入訊息的某些特定部分,忽略其他無關的部分。

這最終提高了模型處理序列數據的能力,生成影片的動態更加多樣化,且效果也比較自然。

其實下面的介紹,一般人應該看不太懂了,除非你是機器學習專業人士。有興趣進一步瞭解 Dreamix 的人,可以參考他們的 Github

公開留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *