
Amazon 研究人員訓練出有史以來最大的文字轉語音 AI 模型
技術革新催生出"新興能力"
Amazon 的研究人員訓練出有史以來最大的文字轉語音模型,他們聲稱這款模型體現出"新興"特質,提高了其自然發音複雜句子的能力。這一突破可能成為技術擺脫詭異谷的契機。研究人員一直期望這些模型能夠成長和改進,但特別希望看到一種能力的飛躍,就像語言模型在達到一定大小後所觀察到的那樣。他們希望這種能力不是模型獲得了感知能力,而是在某一個點後,模型在某些對話人工智慧任務上的表現急劇提升。
此次 Amazon 研究團隊指出,基於文字到語音模型的成長,他們的研究表明事實正是如此。這個新模型名為"具有新興能力的大型適應流式文字到語音模型",並將其縮寫為 BASE TTS。該模型使用了 10 萬小時的公共領域語音資料,其中 90%為英語,其餘為德語、荷蘭語和西班牙語。在 980 萬引數的情況下,BASE-large 似乎是該型別中最大的模型。此外他們還基於 1,000 個小時和 10,000 個小時的音訊資料訓練了 4 億和 1.5 億引數的模型作為比較。研究表明,中型模型體現了團隊所期望的能力飛躍,不僅在普通語音質量上有所提高,還在新興能力上觀察和測量到了明顯的進步。
新模型體現的技術難點
研究人員在論文中提到了一些具有挑戰性的文字示例,例如複合名詞、情感、外國詞、標點符號、問題句和句法復雜性。這些文字被設計成包含挑戰性任務,例如解析迷惑句子、在冗長的複合名詞上放置片語重音、產生情感或耳語語音,或產生外國詞語或標點符號等。這些特性通常會使文字到語音引擎陷入困境,其中可能會出現發音不當、省略單詞、奇怪的語調或其他錯誤。新模型依然存在問題,但相較於其同行模型,如 Tortoise 和 VALL-E 等,它表現要好得多。
未來展望與應用建議
這個新模型是一個實驗性模型,而非商業模型。未來的研究需要確保新興能力的轉折點以及如何有效地訓練和部署結果模型。此外值得一提的是,這個模型是"流式"的,這意味著它不需要一次生成整個句子,而是以相對較低的位元率進行逐段生成。該團隊還試圖將語音後設資料,如情感、韻律等,打包成一個獨立的低頻寬流,以陪伴普通音訊。
新興能力的發現意味著文字到語音模型可能將在 2024 年迎來一個突破。然而這項技術的價值無法否認,尤其在無障礙存取方面。團隊也指出,他們拒絕釋出模型的源程式碼和其他資料,因為存在惡意應用的風險。儘管如此這些訊息將來終將被公開。這一突破無疑將推動人工智慧和語言處理方面的技術應用,但也必須謹慎應對可能帶來的風險和挑戰。
爲了理解 AI 模型發展動態,請點選連結:技術趨勢
延伸閱讀
- 加州新 AI 法案出爐,SB 1047 作者再推出改革措施!
- 《超級瑪利歐成為 AI 基準測試的新標準!你絕對想不到的理由》
- Google 推出 SpeciesNet:專為識別野生動物而設的人工智慧模型!
- Podcasting 平臺 Podcastle 推出超過 450 種 AI 語音的文字轉語音模型!
- 安瑟普提克獲得 35 億美元巨額資金 瞄準人工智慧未來!
- 「Opera 推出全新 AI 代理:瀏覽器內建智慧助理的革命性體驗!」
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- 探索 DeepSeek:你必須理解的 AI 聊天機器人應用全指南!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!