網路議題

開源模型讓你輕鬆生成聲音和音樂!

Meta 推出 AudioCraft:開源框架生成音樂和聲音概述 Meta 宣布推出名為 AudioCraft 的框架,該框架可以根據簡短的文字描述或提示生成“高質量”和“逼真”的音訊和音樂。這並不是 Meta 首次進入音訊生成領域-今年 6 月,這家科技巨頭開源了一個基於人工智慧的音樂生成器 Mus .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

開源模型讓你輕鬆生成聲音和音樂!

Meta 推出 AudioCraft:開源框架生成音樂和聲音

概述

Meta 宣布推出名為 AudioCraft 的框架,該框架可以根據簡短的文字描述或提示生成“高質量”和“逼真”的音訊和音樂。這並不是 Meta 首次進入音訊生成領域-今年 6 月,這家科技巨頭開源了一個基於人工智慧的音樂生成器 MusicGen。Meta 聲稱,在 AI 生成的聲音效果方面取得了顯著的改進,例如狗叫、車喇叭和木地板上的腳步聲。

AudioCraft 框架

Meta 在與 TechCrunch 分享的部落格文章中解釋,AudioCraft 框架旨在簡化音訊生成模型的使用,相比之前在該領域的工作(例如 Riffusion、Dance Diffusion 和 OpenAI 的 Jukebox)。AudioCraft 提供了一系列音樂和聲音生成器以及壓縮算法,可以用於建立和編碼歌曲和音訊,而無需在不同的程式碼庫之間切換。AudioCraft 包含三個生成式 AI 模型:MusicGen、AudioGen 和 EnCodec。

MusicGen 模型

MusicGen 模型並不新鮮。但是 Meta 發布了該模型的訓練程式碼,使使用者可以在自己的音樂資料集上對模型進行訓練。考慮到 MusicGen “學習” 的是現有音樂以產生類似效果,這可能引發重大的道德和法律問題,因為並不是所有藝術家或生成式 AI 使用者都對此感到舒適。越來越多使用生成式 AI 創造熟悉聲音的自製音軌開始瘋狂傳播。音樂廠牌迅速將這些音軌標識給流媒體平臺,引用智慧財產權問題,並且他們通常取得了勝利。但是對於“僞造音樂”的版權是否侵犯了藝術家、唱片公司和其他權利持有人的版權問題還存在一些不明確性。

Meta 明確表示 MusicGen 的預訓練版本是使用“Meta 擁有和特別許可的音樂”進行訓練的,具體來說是來自該公司的“Meta Music Initiative Sound Collection”、Shutterstock 的音樂庫和一個大型媒體庫 Pond5 的 20,000 小時音訊(400,000 個錄音)以及文字描述和後設資料。為了防止模型複製藝術家的聲音,Meta 從訓練資料中去除了歌聲。然而儘管 MusicGen 的使用條款不鼓勵在研究之外的“超出範圍”用例中使用該模型,但 Meta 並未明確禁止任何商業應用。

AudioGen 模型

AudioGen 是 AudioCraft 框架中的另一個音訊生成模型,專注於生成環境聲音和音效,而不是音樂和旋律。AudioGen 是一種基於擴散的模型,類似於大多數現代影象生成器(參見 OpenAI 的 DALL-E 2,Google 的 Imagen 和 Stable Diffusion)。在擴散中,模型學習如何逐步從完全由噪聲組成的起始資料(例如音訊或影象)中消除噪聲,並逐步將其移近目標提示。根據文字描述,AudioGen 可以生成具有“逼真記錄條件”和“複雜場景內容”的環境聲音。然而我們在模型發布之前沒有機會測試 AudioGen 或聆聽其樣本。

EnCodec 模型

EnCodec 是比以前的 Meta 模型更好的生成音樂模型,可以生成較少異常的音樂。Meta 聲稱,EnCodec 更有效地對音訊序列進行建模,將訓練資料的不同層次的訊息捕獲到音訊波形中,以幫助生成新的音訊。Meta 在部落格文章中解釋說:“EnCodec 是一種有損神經編碼器,專門用於壓縮任何型別的音訊並高保真地重新構建原始訊號。不同的流捕獲音訊波形的不同層次訊息,使我們能夠從所有流重構音訊。”

評論和建議

Meta 強調音訊生成模型的潛在優點,如為音樂家提供靈感以及幫助人們以“新的方式”改進他們的作品。然而正如影象和文字生成器的出現所表明的那樣,其中也存在著一些缺點和可能的訴訟。儘管如此 Meta 表示計劃繼續研究改進生成音訊模型的可控性和效能以及減輕這些模型的約束和偏見的方法。

在偏見方面,Meta 指出 MusicGen 在英語以外的語言和非西方的音樂風格和文化的描述上表現不佳,原因在於訓練資料中存在非常明顯的偏見。Meta 在部落格文章中寫道:“與其將這項工作視為一個不可滲透的黑盒子,不如公開說明我們開發這些模型的方式,並確保它們對人們來說易於使用-無論是研究人員還是整個音樂社區-這有助於人們理解這些模型的可能性和局限性,並有能力實際使用它們。透過開發更高級的控制,我們希望這些模型對音樂愛好者和專業人士都有益。”

結論

Meta 的 AudioCraft 為人們提供了一個開源框架,讓他們能夠生成高質量、逼真的音訊和音樂。然而這樣的音訊生成模型也引發了一系列道德和法律問題,例如版權問題和語言文化偏見。它們的應用範圍潛力巨大,但同時需要仔細考慮其潛在影響和風險。

Music-開源模型,聲音生成,音樂生成
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。