網路議題

AI 強勢登場！Stability AI 推出 AI 動力音樂生成器

穩定 AI 推出 AI 動力音樂生成器，希望大獲成功作者：Kyle Wiggers，釋出時間：7 小時前一年前，倫敦新創公司穩定 AI (Stability AI) 推出了基於開源影象生成 AI 模型 Stable Diffusion 的 Dance Diffusion，該模型可以根據對歌曲和音效的 .... (往下繼續閱讀)

by 江塵
2023/9/13
19 分鐘閱讀時間

A- A A+

文章目錄

穩定 AI 推出 AI 動力音樂生成器，希望大獲成功

作者：Kyle Wiggers，釋出時間：7 小時前

一年前，倫敦新創公司穩定 AI (Stability AI) 推出了基於開源影象生成 AI 模型 Stable Diffusion 的 Dance Diffusion，該模型可以根據對歌曲和音效的文字描述生成音樂和音效。Dance Diffusion 是穩定 AI 在生成音樂領域的首次嘗試，並顯示出該公司對 AI 音樂創作工具這一新興領域的重要投資和濃厚興趣。但在 Dance Diffusion 宣佈之後的將近一年裡，關於穩定 AI 生成音樂方面的進展似乎一直很寂靜。研究機構 Harmonai，負責建立這個模型的機構，去年就停止了對 Dance Diffusion 的更新。（在過去穩定 AI 通常會為外部團體提供資源和計算，而不是完全在內部構建模型。）Dance Diffusion 從來沒有經過更精緻的發布；即使在今天安裝它還需要直接使用原始程式碼，因為沒有任何使用者介面。

現在在投資者的壓力下，將超過 1 億美元的資本轉化為產品收入，穩定 AI 正以一種巨大的方式再次致力於音訊領域。今天穩定 AI 宣佈推出了 Stable Audio，該工具聲稱是首個能夠透過潛在擴散技術建立“高品質”、44.1kHz 的商業使用音樂的工具。穩定 AI 表示 Audio Diffusion 底層的大約 12 億引數模型不僅訓練了音訊後設資料，還訓練了音訊檔案的持續時間和起始時間，這使得它可以更好地控制合成音訊的內容和長度，優於之前推出的生成音樂工具。

穩定 AI 的音訊副總裁 Ed Newton-Rex 在接受 TechCrunch 的電子郵件採訪時表示：“穩定 AI 的使命是透過在多種‘模態’（即不同型別的內容）中建立基礎性 AI 模型來解放人類的潛力。我們從 Stable Diffusion 開始，現在已經擴充套件到包括語言、程式碼和音樂。我們相信生成 AI 的未來是多模態的。”

AI 生成音樂模型的約束和潛力

穩定音訊並非僅由 Harmonai 開發，而是由穩定 AI 音訊團隊於今年四月成立，他們建立了一個新模型，靈感來自於 Dance Diffusion，然後由 Harmonai 進行訓練。自去年加入穩定 AI 之後，Ed Newton-Rex 告訴我， Dance Diffusion 只能生成短暫的隨機音訊片段，並且使用者只能在需要控制時對模型進行微調。而 Stable Audio 可以生成更長的音訊，使用者可以使用文字提示和設定所需持續時間來引導生成。“一些提示效果非常好，比如電子舞曲和更節奏感強的音樂以及環境音樂；而一些生成的音訊則更具創意，例如旋律音樂、古典音樂和爵士樂。”

當前穩定 AI 拒絕了我們多次要求委員會試用 Stable Audio 的要求。當前使用 Stable Audio 只能透過一個網頁應用程式，該應用程式直到今天早上才開放使用。對於支援開放研究任務的支援者來說這一舉措可能引起不滿，因為穩定 AI 尚未公布將 Stable Audio 背後的模型開源的計劃。

然而穩定 AI 同意提供一些樣本以展示模型在各種型別音樂（主要是電子舞曲）中的效能。雖然這些樣本很可能是挑選出來的，但至少在我這位記者的耳中，與迄今發布的音訊生成模型相比，這些樣本聽起來更加一致、旋律性較強，並且比較有音樂性。它們並不完美，當然還存在缺乏創意的問題。但如果我在某個飯店大廳裡聽到下面的環境舞曲播放，我可能不會認為這是由 AI 創作的。

鑒於生成影象、語音和影片工具，從 Stable Audio 獲得最佳效果需要精心設計一個能捕捉到你試圖生成的歌曲細微區別的提示，包括風格和節奏、突出的樂器，甚至是歌曲喚起的感知或情緒。對於環境舞曲，穩定 AI 告訴我，他們使用了以下提示：“環境舞曲、冥想、斯堪的納維亞森林、808 鼓機、808 低音、鼓掌、塑膠搖擺聲、合成器、合成器低音、合成器飄蕩聲、美麗、寧靜、虛幻、自然、122 BPM、器樂”；對於下面的音樂片段，提示是“迷幻、伊比薩島、海灘、陽光、凌晨 4 點、漸進、合成器、909 鼓機，戲劇性和莊嚴的和弦，合唱，狂喜、懷舊、動感、流暢”。

作為比較，我將上述提示透過 Google 的 AI 測試廚房應用程式中的 MusicLM 執行。結果並不壞。但 MusicLM 透過一種明顯重複、簡化的方式解讀提示。

Stable Audio 帶來的創新和挑戰

穩定音訊所產生的歌曲最引人注目的一點是它們的長度可以達到 90 秒，保持著一致性。其他 AI 模型可以生成很長的歌曲，但通常在短暫的持續時間之後，它們會演變為隨機的、不和諧的噪音。這一祕密在於上面提到的潛在擴散技術，這是一種與 Stable Diffusion 用於生成影象的技術相似的技術。驅動 Stable Audio 的模型學會了如何逐步從幾乎完全由噪音組成的起始曲目中逐步減少噪音，一步一步地將其移向文字描述的目標。Stable Audio 不僅能夠生成歌曲，還能夠模擬汽車行駛的聲音或鼓獨奏的聲音。

穩定音訊並非第一個在音樂生成中利用潛在擴散技術的模型，這一點值得指出。但它在音樂性和忠實度方面是比較精緻的。為了訓練 Stable Audio，穩定 AI 與商業音樂庫 AudioSparx 合作，AudioSparx 提供了大約 80 萬首來自其主要由獨立藝術家創作的音樂目錄的歌曲。據 Newton-Rex 介紹，他們採取了措施排除了歌唱曲目，這樣做是為了避免進一步的倫理和版權爭議，比如“深度偽造”歌聲。

相當令人驚訝的是，穩定 AI 沒有篩選可能會進入法律陷阱的提示。例如，像 Google 的 MusicLM 這樣的工具，如果你輸入像“巴裡·馬尼洛”這樣的提示，它會顯示一條錯誤訊息。而 Stable Audio 則不會，至少當前還沒有。當直接問到是否可以使用 Stable Audio 生成像哈裏·斯泰爾斯(Harry Styles)或鷹樂團(The Eagles)這樣流行藝術家風格的歌曲時，Newton-Rex 表示該工具受到其訓練資料中的音樂約束，而這些資料不包括來自主要唱片公司的音樂。這可能是事實。但是對 AudioSparx 音樂庫進行簡單搜尋，就會找到成千上萬首歌曲，這些歌曲本身就是以“像披頭士、AC/DC 等”這些藝術家風格的歌曲為標志的，這似乎對我來說是一個漏洞。

Newton-Rex 說：“Stable Audio 主要設計用於生成器樂，因此誤導和人聲假象不太可能成問題。然而我們正在積極努力解決 AI 中出現的新風險，透過在我們的影片處理製品中實施內容真實性標準和數位水印技術，使使用者和平臺能夠識別透過我們的託管服務生成的 AI 輔助內容……我們計劃在我們的音訊模型中也實施這種型別的標記。”

著作權和生成 AI 的法律問題

越來越多的自制音軌使用生成 AI 來喚起人們熟悉的聲音，這些音軌可以偽裝成真實的，或者至少非常接近真實的音樂，並在網路上迅速爆紅。就在上個月，一個致力於生成音樂的 Discord 社區發布了一張整張專輯，其中完全使用了 AI 生成的特拉維斯·斯科特(Travis Scott)的聲音，這引起了他代理人所在的唱片公司的憤怒。音樂公司迅速向 Spotify 和 SoundCloud 等流媒體平臺投訴 AI 生成的曲目，以保護智慧財產權，並且通常獲得了勝訴。但當前對於“深度偽造”音樂是否侵犯了藝術家、唱片公司和其他權利人的版權仍然缺乏明確的界定。對於著作權辦公室來說 AI 生成的藝術作品是否能受到版權保護還沒有一個確保的立場，它只是最近才開始就 AI 與版權問題徵求公眾意見。

穩定 AI 認為，Stable Audio 的使用者可以獲得（但不一定是）其作品的營收，這比其他生成 AI 供應商提出的建議要少一步。上周，微軟宣佈將擴大對其 AI 工具的商業客戶的豁免保護範圍，以保護其在基於 AI 工具的著作權侵權訴訟中的利益。穩定 AI 支付 11.99 美元每月的 Pro 高級會員費，可以每月生成 500 個商業化曲目，每個曲目長度不超過 90 秒。免費會員費用約束為每月 20 個非商業化曲目，每個曲目長度為 20 秒。而希望在每月活躍使用者超過 10 萬的應用程式、軟體或網站中使用 Stable Audio 生成的 AI 音樂的使用者必須訂閱企業計劃。

在 Stable Audio 服務條款協議中，穩定 AI 明確表示他們保留使用客戶的提示、歌曲和工具上的活動等資料，用於一系列目的，包括開發未來的模型和服務。顧客同意，在對使用 Stable Audio 生成的歌曲提出智慧財產權主張時，對穩定 AI 進行賠償。然而您可能會想知道，作為 Stable Audio 訓練來源的音訊創作者是否能從那每月費用的一小部分中受益？畢竟，穩定 AI 和其他一些生成 AI 競爭對手都因在未經賠償或通知的情況下訓練模型時侵犯了藝術家的作品，而陷入困境。與穩定 AI 最近的生成影象模型一樣，Stable Audio 確實有一個選擇退出的機制，盡管在很大程度上這項責任落在了 AudioSparx 身上。據 AudioSparx 的執行副總裁 Lee Johnson 透過電子郵件表示：“我們支援我們音樂創作者的參與或不參與的決定，並樂意為他們提供這方面的彈性。” AudioSparx 與穩定 AI 之間的協議涉及分成收入的分享，如果音樂人參與了 Stable Audio 的初始訓練，或者決定參與未來版本的訓練，則可以分享 Stable Audio 所產生的利潤。這與 Adobe 和 Shutterstock 使用他們的生成 AI 工具追求的模式類似，但是穩定 AI 對這項協議的細節未予公開，也沒有說明音樂人在貢獻方面可以期待獲得多少報酬。

考慮到穩定 AI 需要克服的障礙，可以說 Stable Audio 將改變公司的命運還存在一定的風險。對於 Stability AI 來說面臨的挑戰在如何管理其資本並實現盈利上有一定的不確保性。盡管最近透過可轉換票據（即轉換為股權的債務）籌集了 2500 萬美元，使其總籌集金額超過 1.25 億美元，但它尚未以更高的估值封閉新的融資。穩定 AI 上次估值為 10 億美元，據稱計劃在未來幾個月內尋求該估值的四倍增長，儘管相關收入始終不高，而且燒錢速度很快。因此 Stable Audio 能否扭轉公司的劣勢還存在一定的不確保性。

Technology-AI,強勢登場,StabilityAI,AI 動力音樂生成器

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集