史上最大的文字轉語音 AI 模型體現「新興能力」

Amazon 研究人員訓練出有史以來最大的文字轉語音 AI 模型技術革新催生出"新興能力"Amazon 的研究人員訓練出有史以來最大的文字轉語音模型，他們聲稱這款模型體現出"新興"特質，提高了其自然發音複雜句子的能力。這一突破可能成為技術擺脫詭異谷的契機。研究人員一直期望這些模型能夠成長和改進，但特 .... (往下繼續閱讀)

by 程宇肖
2024/2/15
5 分鐘閱讀時間

A- A A+

文章目錄

Amazon 研究人員訓練出有史以來最大的文字轉語音 AI 模型

技術革新催生出"新興能力"

Amazon 的研究人員訓練出有史以來最大的文字轉語音模型，他們聲稱這款模型體現出"新興"特質，提高了其自然發音複雜句子的能力。這一突破可能成為技術擺脫詭異谷的契機。研究人員一直期望這些模型能夠成長和改進，但特別希望看到一種能力的飛躍，就像語言模型在達到一定大小後所觀察到的那樣。他們希望這種能力不是模型獲得了感知能力，而是在某一個點後，模型在某些對話人工智慧任務上的表現急劇提升。此次 Amazon 研究團隊指出，基於文字到語音模型的成長，他們的研究表明事實正是如此。這個新模型名為"具有新興能力的大型適應流式文字到語音模型"，並將其縮寫為 BASE TTS。該模型使用了 10 萬小時的公共領域語音資料，其中 90%為英語，其餘為德語、荷蘭語和西班牙語。在 980 萬引數的情況下，BASE-large 似乎是該型別中最大的模型。此外他們還基於 1,000 個小時和 10,000 個小時的音訊資料訓練了 4 億和 1.5 億引數的模型作為比較。研究表明，中型模型體現了團隊所期望的能力飛躍，不僅在普通語音質量上有所提高，還在新興能力上觀察和測量到了明顯的進步。

新模型體現的技術難點

研究人員在論文中提到了一些具有挑戰性的文字示例，例如複合名詞、情感、外國詞、標點符號、問題句和句法復雜性。這些文字被設計成包含挑戰性任務，例如解析迷惑句子、在冗長的複合名詞上放置片語重音、產生情感或耳語語音，或產生外國詞語或標點符號等。這些特性通常會使文字到語音引擎陷入困境，其中可能會出現發音不當、省略單詞、奇怪的語調或其他錯誤。新模型依然存在問題，但相較於其同行模型，如 Tortoise 和 VALL-E 等，它表現要好得多。

未來展望與應用建議

這個新模型是一個實驗性模型，而非商業模型。未來的研究需要確保新興能力的轉折點以及如何有效地訓練和部署結果模型。此外值得一提的是，這個模型是"流式"的，這意味著它不需要一次生成整個句子，而是以相對較低的位元率進行逐段生成。該團隊還試圖將語音後設資料，如情感、韻律等，打包成一個獨立的低頻寬流，以陪伴普通音訊。新興能力的發現意味著文字到語音模型可能將在 2024 年迎來一個突破。然而這項技術的價值無法否認，尤其在無障礙存取方面。團隊也指出，他們拒絕釋出模型的源程式碼和其他資料，因為存在惡意應用的風險。儘管如此這些訊息將來終將被公開。這一突破無疑將推動人工智慧和語言處理方面的技術應用，但也必須謹慎應對可能帶來的風險和挑戰。爲了理解 AI 模型發展動態，請點選連結：技術趨勢

ArtificialIntelligence-文字轉語音,AI 模型,技術革新,人工智慧,語音合成,自然語言處理

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集

史上最大的文字轉語音 AI 模型體現「新興能力」

文章目錄

Amazon 研究人員訓練出有史以來最大的文字轉語音 AI 模型

技術革新催生出"新興能力"

新模型體現的技術難點

未來展望與應用建議

延伸閱讀

DuckDuckGo 推出跨裝置密碼和書籤同步功能

開源人工智慧閘道器 Køng 讓建立多語言模型應用更容易

程宇肖