網路議題

打破語言障礙:ElevenLabs 推出多語言文字轉語音,為不同觀眾打造

ElevenLabs 釋出全新的多語言文字轉語音模型新創公司 ElevenLabs 宣布,其機器學習技術應用在語音克隆和合成方面的平臺得到了擴充,新增了支援 30 種語言的文字轉語音模型。這次擴充標誌著該平臺正式退出測試階段,成為了面向企業和個人的服務,這讓他們能夠為全球觀眾定製其內容。此次擴充是在 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

打破語言障礙:ElevenLabs 推出多語言文字轉語音,為不同觀眾打造

ElevenLabs 釋出全新的多語言文字轉語音模型

新創公司 ElevenLabs 宣布,其機器學習技術應用在語音克隆和合成方面的平臺得到了擴充,新增了支援 30 種語言的文字轉語音模型。這次擴充標誌著該平臺正式退出測試階段,成為了面向企業和個人的服務,這讓他們能夠為全球觀眾定製其內容。此次擴充是在 ElevenLabs 最近成功完成了一輪 1900 萬美元的 A 輪融資之後進行的,該融資將該公司的估值提高至近 1 億美元。ElevenLabs 的 CEO 和共同創始人 Mati Staniszewski 在一份宣告中表示:“ElevenLabs 的創立始於讓所有內容在任何語言和任何聲音中普遍可用的夢想。隨著 Eleven Multilingual v2 的發布,我們更接近將這個夢想變為現實,讓人類品質的 AI 聲音在每一種方言中都能使用。”他還補充說:“最終我們希望透過人工智慧覆蓋更多的語言和聲音,消除內容的語言障礙。”

Eleven Multilingual v2:它如何有用?

ElevenLabs 提供了兩個主要的以語音為中心的人工智慧產品——語音合成(Speech Synthesis)和 VoiceLab。前者是一個合成工具,可以從文字輸入生成自然語言的語音。而後者則是附加的工具,使使用者能夠克隆自己的聲音或生成全新的合成聲音(透過隨機抽樣語音引數)並與合成工具一起使用。一旦使用者建立了自己的定制聲音,他們可以將其插入到文字轉語音工具中,將他們選擇的短篇或長篇內容轉換為他們希望的語音,而無需任何努力。此外他們還可以使用該公司提供的一些預製 AI 聲音,或者使用社區中建立並公開分享的聲音。在早期,合成工具只支援英語生成語音。後來,該工具擴充套件到了支援 11 種語言的 Eleven Multilingual v1 版本,其中包括英語、波蘭語、德語、西班牙語、法語、義大利語、葡萄牙語和印地語。現在隨著 Eleven Multilingual v2 的推出,這個平臺能夠在 30 種更多的語言中合成語音,其中包括韓語、荷蘭語、土耳其語、瑞典語、印度尼西亞語、越南語、菲律賓語、烏克蘭語、希臘語、捷克語、芬蘭語、羅馬尼亞語、丹麥語、保加利亞語、馬來語、匈牙利語、挪威語、斯洛伐克語、克羅埃西亞語、古典阿拉伯語和坦米爾語。這一舉措實際上意味著一個人可以克隆自己的聲音,並使用它在數十種不同語言中製作語音,以瞄準不同的市場。據 ElevenLabs 表示使用者只需使用他們選擇的語言輸入文字,選擇他們想要的聲音(預製、合成或克隆)並調整一些語音引數。該模型將自動識別出書面語言並使用設定的引數生成該語言的語音。它還保留了選定語音在所有語言中的獨特特徵,包括原來的腔調。Staniszewski 告訴 VentureBeat:“我們的模型能夠理解詞語之間的關係,並根據所處上下文調整輸出(‘語境化’的文字轉語音)。由於模型中沒有硬編碼的聲音特徵,它能夠在建立 AI 聲音時穩健地預測成千上萬個聲音特徵。這意味著 ElevenLabs 的模型可以考慮到每一個生成發音周圍的文字,以保持適當的流暢度,而不是為每個發音單獨生成,這可能會產生聽起來機械的聲音。”

語音合成工具的廣泛應用

自從推出,ElevenLabs 就得到了來自企業和創作者的關注,聲稱已在全球註冊了 100 多萬使用者。此次最新的發布預計不僅能提高該平臺的使用者基數,還能每天生成更多的內容。Staniszewski 解釋道:“我們有許多企業客戶使用我們的產品,他們的應用案例各不相同:從影片遊戲中的角色配音到客服頭像的語音,從錄製有聲書到為視覺障礙人士建立內容。”最近,該公司與 ArXiv 合作,為所有論文提供了一個音訊版本,以提供額外的可存取性。它還與 Storytel 合作,提供了人工智慧聲音和人聲旁白之外的其他選擇。未來,該公司的執行長預計還可以實現將整部電影無縫配音為多種語言,同時保留原始演員的口音和情感。在這個以人工智慧驅動的語音合成領域,ElevenLabs 與 MURF.AI、Play.ht 和 WellSaid Labs 等競爭對手展開競爭。根據市場研究公司 Market US 的資料,2022 年這類工具的全球市場規模為 12 億美元,預計到 2032 年將達到近 50 億美元,年均複合增長率略高於 15.40%。

編輯評論

ElevenLabs文字轉語音技術的發展具有重要的意義。這一技術能夠讓人們以他們選擇的語音,使用多種語言來製作內容,從而打破了語言障礙。對於企業來說這意味著他們可以用不同的語言定製內容,以吸引不同國家和地區的消費者。此外對於內容創作者和視障人士來說這種技術也能提供更多的創作和存取便利。然而我們也需要嚴肅思考這種技術的衝擊。在全球數位差距仍然存在的情況下,文字轉語音技術可能進一步加劇數位落差。此外技術的濫用也可能導致訊息和語音的偽造。因此我們需要更多的規範和監管,以確保這項技術的正確使用和公平性。

建議

對於企業和個人而言,ElevenLabs文字轉語音技術提供了一個獨特而有價值的機會,可以輕鬆將內容定製成多種語言的語音。如果您是企業主,您可以考慮使用這項技術來擴充套件您的市場規模,吸引更多國家和地區的消費者。對於創作者來說這項技術將為您提供一個創新和有吸引力的方式來製作內容。同時我們也應該保持警覺,避免濫用這項技術。我們應該遵守道德準則,確保正確使用這項技術,同時保護內容和語音的真實性和正確性。

Multilingual-語言障礙,多語言,文字轉語音,ElevenLabs,觀眾
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。