Stability AI 推出 AI 音訊平臺 Stable Audio,讓人們能夠與 AI 創作歌曲
穩定 AI 擴充套件到音訊領域
穩定 AI 是一家以人工智慧生成視覺效果聞名的公司,最近推出了一個文字到音訊生成的 AI 平臺,名為 Stable Audio。Stable Audio 使用擴散模型,這是該公司更受歡迎的影象平臺 Stable Diffusion 所使用的 AI 模型,但是將其訓練用於音訊而不是影象。使用者可以使用它來生成歌曲或者任何專案的背景音訊。然而音訊擴散模型通常生成固定長度的音訊,這對於音樂創作來說是非常不理想的,因為歌曲的長度是各不相同的。穩定 AI 的新平臺可以讓使用者生成不同長度的音訊,但這就需要該公司在音樂訓練時新增文字後設資料,例如歌曲的開始和結束時間。之前,僅透過 30 秒音訊片段進行訓練,只能生成 30 秒音訊並建立歌曲的任意部分。穩定 AI 稱,對模型進行微調現在允許 Stable Audio 的使用者對歌曲的長度有更多控制。
建立在龐大的音訊資料集上
穩定 AI 表示:“Stable Audio 代表了穩定 AI 生成音訊研究實驗室 Harmonai 最前沿的音訊生成研究。”該公司還表示:“我們不斷改進模型架構、資料集和訓練程式,以提高輸出質量、可控性、推理速度和輸出長度。”根據該公司的說法,他們使用的資料集包含了 800,000 個音訊檔案,其中包括音樂、音效和單音樂器的音軌等,來自股票音樂授權公司 AudioSparx 的文字後設資料。這個資料集包含超過 19,500 小時的音源資料。透過與授權公司合作,穩定 AI 表示已獲取了使用受版權保護材料的許可。
定價模型與用途
Stable Audio 將提供三種定價方案:免費版允許使用者每月創作 20 個歌曲音訊,每首歌曲長度最多為 45 秒;專業版售價為 11.99 美元,用於 500 首歌曲,每首歌曲最長為 90 秒;企業訂閱版允許公司定制使用和價格。免費版使用者不能商業性地使用他們使用 Stable Audio 生成的音訊。需要注意的是,文字到音訊生成並不是一個新穎的概念,其他一些在生成 AI 領域有著廣泛影響力的公司也在進行相關研究和開發。
AI 音訊平臺的潛在用途
像 Stable Audio 這樣的生成 AI 音訊平臺擁有許多應用場景,其中之一就是為播客或影片製作背景音樂,以提高工作效率。根據穩定 AI 去年宣布的計劃,他們還打算擴充套件到音訊生成、影片和三維影象領域。
評論與建議
AI 技術在音訊生成領域的應用有著巨大的潛力,並且看起來在不久的將來將會變得更加成熟。Stable Audio 作為一個提供文字到音訊生成的平臺,給使用者提供了更多創造力和可控性。然而隨著 AI 技術的應用擴大,我們也需要注意其中的倫理和法律問題。
倫理問題
隨著 AI 音訊生成的發展,我們需要思考如何確保音訊生成的內容不侵犯他人的版權。在穩定 AI 的案例中,他們透過與授權公司合作,獲得了使用受版權保護材料的許可。這是一個重要的一步,但我們仍然需要對使用 AI 生成音訊的版權問題進行更多的討論和制定相應的法規。同樣,AI 生成音訊的內容應該符合道德和社會價值觀,不應該含有不當或違法的元素。
法律問題
隨著 AI 技術在音訊生成領域的應用,法律問題也逐步浮現。例如,如果有人使用 AI 生成音訊的作品侵犯了他人的權益,是誰負責?這就引出了對責任歸屬的問題。當前我們需要正視這些問題,制定相應的法律框架來應對 AI 技術帶來的挑戰。
結論
Stable Audio 作為一個 AI 音訊生成平臺,為使用者提供了更多音樂創作的可能性。然而我們也需要謹慎應對 AI 的應用,並確保其在倫理和法律層面上的合規性。隨著 AI 技術的快速發展,我們需要持續關注並積極參與相關討論,以確保 AI 的應用符合我們的價值觀和法律準則。
延伸閱讀
- Anthropic 的 Claude 在 iOS 平臺上的推出獲得微弱反韇,與 ChatGPT 的首次亮相相比
- 微軟將於七月推出手機遊戲商店
- TikTok 將自動標記在 DALL·E 3 等平臺上生成的 AI 內容
- 以色列新創公司 Panax 籌集了 1000 萬美元的 A 輪融資,致力於其 AI 驅動的現金流管理平臺
- 「告別擊敗?Threads 為所有使用者推出引文控制功能」
- Dropbox、Figma CEO 支援 Lamini:新創公司打造企業專用生成式人工智慧平臺
- Google Gemini:全新生成式人工智慧平臺的全方位解析
- 美國國家標準技術研究所推出新平臺評估生成式人工智慧
- Google 支援的 Glance 在美國試點推出 Android 鎖定屏平臺
- X 公司即將推出影片的電視應用程式