如果說 ChatGPT 開創了文字型 AIGC(生成式 AI)的新時代,Midjourney 則開創了「圖像型」AIGC 的新標竿,那麼「音樂類型」可能將成為下一個重要的 AIGC 新領域,至少 Google 的研究已經有了答案:MusicLM。
Google 推出新的音樂型 AIGC 工具:MusicLM
1月27日,Google 公司釋出了 MusicLM 的消息,該 AI 模型可以從文字描述、甚至圖像描述中生成任何類型的高保真(High Fidelity)音樂,但由於考慮到版權與風險問題,研究人員目前沒有向公眾釋出該系統,大家只能先看見成果,還無法線上自己玩。
「我們強調,需要在未來開展更多工作來應對與 AI 音樂生成相關的風險,目前沒有釋出模型的計劃。」(Google)
事實上,這並不是歷史上第一個 AI 音樂生成工具,Google 的 AudioML 和 OpenAI 的 Jukebox 專案都已經解決過這個問題。然而,不同於其他工具,MusicLM 擁有大量的 AI 模型以及 280,000 小時的訓練資料庫,因此可以製作出更加多樣性且深度的音樂。
用戶可以透過文字描述,甚至一張圖像,來直接讓 AI 生成一段音樂,如「平靜的小提琴旋律,伴隨著扭曲的吉他旋律」等等。Google 表示,MusicLM 將有條件的音樂生成過程描述為一個層次化的「序列到序列」的建模任務,它生成的音樂頻率為 24kHz,「我們的實驗表明,MusicLM在音訊質量和對文字描述的遵守方面都優於以前的系統。」
MusicLM 的線上試聽:文字描述型
第一首:街機風格
描述:The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls.
街機遊戲的主要原聲帶。它是快節奏和歡快的,有一個朗朗上口的電吉他節奏。音樂是重複的,容易記住,但有出乎意料的聲音,如鐃鈸的撞擊或鼓的滾動。
第二首:雷鬼風格
描述:A fusion of reggaeton and electronic dance music, with a spacey, otherworldly sound. Induces the experience of being lost in space, and the music would be designed to evoke a sense of wonder and awe, while being danceable.
雷鬼舞曲和電子舞曲的融合,具有太空般的、另一個世界的聲音。誘發在太空中迷失的體驗,音樂將被設計為喚起一種驚奇和敬畏的感覺,同時又是可舞蹈的。
第三首:混音風格
描述:A rising synth is playing an arpeggio with a lot of reverb. It is backed by pads, sub bass line and soft drums. This song is full of synth sounds creating a soothing and adventurous atmosphere. It may be playing at a festival during two songs for a buildup.
一個上升的合成器正在演奏一個帶有大量混音的分散和弦。它由襯底、低音線和柔和的鼓聲支撐著。這首歌充滿了合成器的聲音,創造了一種舒緩和冒險的氣氛。它可能會在一個節日裡的兩首歌曲中播放,作為一個鋪墊。
第四首:慢節奏雷鬼
描述:Slow tempo, bass-and-drums-led reggae song. Sustained electric guitar. High-pitched bongos with ringing tones. Vocals are relaxed with a laid-back feel, very expressive.
慢節奏,以貝斯和鼓為主導的雷鬼歌曲。持續的電吉他。高音的邦戈舞曲,音調響亮。聲樂是輕鬆的,有一種悠閒的感覺,很有表現力。
MusicLM 的線上試聽:長音樂生成型
第五首:舒適爵士樂
描述:Relaxing jazz
舒適的爵士樂。
第六首:搖擺樂
描述:Swing
搖擺樂。
第七首:鐵克諾音樂
描述:melodic techno
鐵克諾音樂。
MusicLM 的線上試聽:故事型
故事型音樂是透過提供「一連串的文字提示」產生的,這些提示影響了模型如何在提示與提示之間連續。
第八首:故事型範例
文字提示:
time to meditate (0:00-0:15)
time to wake up (0:15-0:30)
time to run (0:30-0:45)
time to give 100% (0:45-0:60)
打坐時間 (0:00-0:15)
起床時間 (0:15-0:30)
跑步時間 (0:30-0:45)
付出100%的時間 (0:45-0:60)
MusicLM 的線上試聽:圖像型
第九首:記憶的永恆(達利)
描述:His melting-clock imagery mocks the rigidity of chronometric time. The watches themselves look like soft cheese—indeed, by Dali s own account they were inspired by hallucinations after eating Camembert cheese. In the center of the picture, under one of the watches, is a distorted human face in profile. The ants on the plate represent decay.
他的融化的時鐘影像嘲弄了計時器的僵硬。這些手錶本身看起來像軟乳酪--事實上,根據達利自己的說法,它們的靈感來自於吃了卡門培爾乳酪後產生的幻覺。在畫面的中心,在其中一塊手錶的下面,是一張扭曲的人臉。盤子上的螞蟻代表腐爛。
第十首:跨越阿爾卑斯山聖伯納隘道的拿破崙(賈克-路易·大衛)
描述:The composition shows a strongly idealized view of the real crossing that Napoleon and his army made across the Alps through the Great St Bernard Pass in May 1800.
這幅作品展示了拿破崙和他的軍隊在1800年5月透過大聖伯納德山口穿越阿爾卑斯山的真實景象,具有強烈的理想化。
第十一首:吶喊(孟克)
描述:Inspired by a hallucinatory experience in which Munch felt and heard a scream throughout nature, it depicts a panic-stricken creature, simultaneously corpse like and reminiscent of a sperm or fetus, whose contours are echoed in the swirling lines of the blood-red sky.
這幅畫的靈感來自於孟克的一次幻覺經歷,他感覺到並聽到了整個自然界的尖叫聲,它描繪了一個驚慌失措的生物,既像屍體又讓人聯想到精子或胎兒,其輪廓在血紅色天空的旋轉線條中得到了迴響。
第十二首:星夜(梵谷)
描述:The Starry Night (Dutch: De sterrennacht) is an oil-on-canvas painting by the Dutch Post-Impressionist painter Vincent van Gogh. Painted in June 1889, it depicts the view from the east-facing window of his asylum room at Saint-Rémy-de-Provence, just before sunrise, with the addition of an imaginary village.
《星夜》(荷蘭語:De sterrennacht)是荷蘭後印象派畫家文森-梵谷的一幅布面油畫。這幅畫畫於1889年6月,描繪了他在聖雷米-德普羅旺斯的庇護所房間裡朝東的窗戶,在日出前的景色,並增加了一個想象的村莊。
這類透過文字、圖像描述而產生 AI 音樂的案例,Google 提供了很多,我這邊只放上前面幾首,有興趣試聽更多的人,可以自行去 Google 的 Github 頁面查看。(文/黃郁棋,2023)
1 Comment