在多重語音合成任務上的生成模型 Voicebox

Meta’s Voicebox: A Promising AI Model for Speech Generation and MoreIntroduction 上週，社交媒體巨頭 Meta 公司（早期名為 Facebook）的人工智慧研究部門推出了一款名為 Voicebox 的機器學習模型，可以從文 .... (往下繼續閱讀)

by 程宇肖
2023/6/19
11 分鐘閱讀時間

A- A A+

文章目錄

Meta’s Voicebox: A Promising AI Model for Speech Generation and More

Introduction

上週，社交媒體巨頭 Meta 公司（早期名為 Facebook）的人工智慧研究部門推出了一款名為 Voicebox 的機器學習模型，可以從文字生成語音。Voicebox 與其他文字到語音模型的區別在於它具有執行許多未進行過訓練的任務的能力，包括編輯、去噪和風格轉換。該模型是利用 Meta 研究人員開發的一種特殊方法進行訓練的。儘管由於對濫用的倫理關切，Meta 尚未公開 Voicebox，但初步結果令人鼓舞，並且未來可應用於多種領域。

Flow Matching Technique and Training

Voicebox 是一個生成模型，可以合成包括英語、法語、西班牙語、德語、波蘭語和葡萄牙語在內的六種語言的語音。與大型語言模型類似，它被訓練用於一個非常通用的任務，可用於多種應用。但是 Voicebox 與大型語言模型的區別在於它被訓練用於學習將語音音訊樣本對映到其轉錄本的模式。這樣的模型可以應用於多個下遊任務，幾乎不需要進行微調。Meta 公司的研究人員在描述 Voicebox 的技術細節的論文中寫道：“我們的目標是建立一個可以透過上下文學習執行許多文字引導的語音生成任務的單一模型。” 該模型是使用 Meta 的“Flow Matching”技術進行訓練的，該技術比其他生成模型中使用的基於擴散的學習方法更高效且具有一般性。這種技術使 Voicebox 能夠“在不需要仔細標記這些差異的情況下從不同的語音資料中學習”。在不需要手動標記的情況下，研究人員可以使用來自有聲書的 50,000 小時的語音和轉錄進行對 Voicebox 進行訓練。該模型以“文字引導的語音填充”作為其訓練目標，這意味著它必須在給定其周圍音訊和完整文字轉錄的情況下預測音訊片段。基本上，這意味著在訓練中，模型提供了一個音訊樣本及其相應的文字。然後，將音訊的某些部分進行遮蔽，模型嘗試使用周圍音訊和文字作為上下文來生成被遮蔽的部分。透過不斷重複這個過程，模型學習以一種具有通用性的方式，從文字生成自然音質的語音。

Applications and Limitations

與僅為特定應用而訓練的生成模型不同，Voicebox 可以執行許多未進行過訓練的任務。例如，該模型可以使用兩秒的語音樣本為新文字生成語音。Meta 表示這種能力可以用於使無法說話的人受益或自定義非可遊戲角色和虛擬助手的聲音。Voicebox 還可以以不同的方式進行風格轉換。例如，您可以向模型提供兩個音訊和文字樣本。它將使用第一個音訊樣本作為風格參考，並修改第二個音訊樣本以匹配參考的聲音和語調。有趣的是，該模型還可以在不同的語言之間進行相同的操作，這可以用於“幫助人們以自然、真實的方式溝通，即使他們不說相同的語言”。該模型還可以執行各種編輯任務。例如，如果在您錄製語音時背景中出現一只狗叫，您可以將音訊和轉錄提供給 Voicebox，遮蔽帶有背景噪音的部分。該模型將根據轉錄生成不帶背景噪音的缺失音訊部分。同樣的技術也可以用於編輯語音。例如，如果您說錯了一個詞，您可以遮蔽音訊樣本中的該部分並將其傳遞給 Voicebox，同時提供修改後的文字轉錄。該模型將在能夠匹配周圍的語音和語調的情況下生成缺失部分的新文字。 Voicebox 的一個有趣的應用是語音取樣。該模型可以從單個文字序列生成各種語音樣本。這種能力可以用於生成用於訓練其他語音處理模型的合成資料。Meta 表示：“我們的結果表明，使用 Voicebox 生成的合成語音進行訓練的語音識別模型與使用真實語音訓練的模型表現幾乎相同，錯誤率僅降低 1％，而以前的文字到語音模型生成的合成語音的錯誤率則降低了 45％至 70％。” 然而 Voicebox 也存在局限性。由於其訓練資料來自有聲書，因此不適用於非正式對話和包含非言語聲音的對話，轉換效果不佳。此外它還無法完全控制所生成語音的不同屬性，例如聲音風格、語調、情緒和聲學條件。Meta 的研究團隊正在探索克服這些約束的技術。

Ethical Concerns and Future Directions

AI 生成的內容的威脅日益引起關注。例如，最近有網路犯罪分子試圖透過以 AI 生成的語音模仿其孫子的聲音來詐騙一名女士。像 Voicebox 這樣的先進語音合成系統也可能被用於類似的用途或其他不法行為，例如建立假證據或操縱真實音訊。“正如其他新的強大 AI 創新技術一樣，我們意識到這項技術帶來了濫用和意外危害的潛力”，Meta 在其 AI 部落格上寫道。基於這些關切，Meta 尚未發布 Voicebox，但在技術論文中提供了有關架構和訓練過程的技術細節。該論文還包含了一個分類器模型的詳細資訊，該模型可以檢測由 Voicebox 生成的語音和音訊，以減輕使用該模型的風險。

Conclusion: Balancing Potential and Responsibility

The introduction of Meta's Voicebox showcases the potential of AI in speech generation and its applications in various fields, ranging from assisting non-speaking individuals to enhancing virtual assistants and gaming experiences. The ability of Voicebox to perform tasks it has not been explicitly trained for, such as editing, noise removal, and style transfer, opens up new possibilities in the realm of text-to-speech models. However, the ethical concerns surrounding AI-generated content cannot be ignored. The potential for misuse and unintended harm necessitates responsible development and deployment of such technologies. Meta's decision to withhold the release of Voicebox and provide technical details in a research paper reflects a commendable commitment to addressing these concerns. As AI continues to advance, it is essential for researchers, developers, and policymakers to strike a balance between innovation and ethical considerations. Robust safeguards, such as the development of detection mechanisms for AI-generated content and ongoing exploration of techniques to overcome limitations, should be prioritized. By doing so, we can harness the benefits of AI while mitigating the potential risks.

Source:

原始資料來源：[Unsplash Gallery](https://unsplash.com/s/photos/speech) 關鍵字：多重語音合成、生成模型、Voicebox

Unsplash Gallery keyword: Speech-多重語音合成,生成模型,Voicebox

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集