網路議題

模擬口型生成人工語音技術：探索與編輯

電腦模擬語音技術進展：以人臉嘴脣運動為模型簡介科技日新月異，透過機器學習可有效的解決現實生活中的問題。其中一個問題涉及嘗試讓人類與動畫角色從臉部運動（特別是嘴脣動作）中產生合成語音。在英國皇家科學院的報告中指出，未來有望利用人工智慧技術來推動自然語言生成的發展。電腦科學家最近開發一種名為 Lip2S .... (往下繼續閱讀)

by 程宇肖
2023/6/13
5 分鐘閱讀時間

A- A A+

文章目錄

電腦模擬語音技術進展：以人臉嘴脣運動為模型

簡介

科技日新月異，透過機器學習可有效的解決現實生活中的問題。其中一個問題涉及嘗試讓人類與動畫角色從臉部運動（特別是嘴脣動作）中產生合成語音。在英國皇家科學院的報告中指出，未來有望利用人工智慧技術來推動自然語言生成的發展。

電腦科學家最近開發一種名為 Lip2Speech 的模型，即透過機器學習，預測出嘴脣運動產生的語音。相比其他 Lip2Speech 模型，該模型採用變分自編碼器，一種基於神經網路編解碼的生成模型，用於在零樣本條件下生成個性化的合成語音。這項技術對一些領域有很大的幫助，例如協助語言殘障患者與人溝通、為無聲電影新增聲效、還原在嘈雜聲音下影片中的語音，甚至還可以用於分析沒有語音的閉路電視影像。

技術及方法

該模型適用於零樣本學習，進行了以往技術的改進。在往往需要可靠的影片錄影的前提下，該模型能夠應用在只有無聲影片錄影的情況下。作者借用 FSE（面部語音控制器）的跨模態表示的學習，將語音特徵分離出演講者的身份訊息與語言內容的表示形式。進一步，人臉影象與相應的跨模態表示的學習也應用於語音控制的 FSE 上，用以改善預測的準確性。

雖然許多模型在語音合成方面取得了良好的效果，但大多數模型無法實時執行和使用零樣本學習的方法訓練。研究團隊提出的方法可以生成與樣本同樣自然且匹配演講者個性的合成語音，並能在零樣本條件下生成語音，而不需要基於對本地的取樣資料。

應用前景

該項技術的發展將有望分別在不同領域產生實際應用價值：對於語言殘障患者，該技術可以協助其與人溝通；對於影視制作，該技術可以新增音效；對於商業領域，該技術可以幫助處理缺失且重要的資料；對於維護公共秩序，該技術可以應用於解析無聲點位影像中的言談內容，以維護秩序和安全。

倫理與憂慮

儘管這項技術帶來了巨大的便捷，但它也帶來了一些問題和風險。例如，經常用於影片監控的安全系統可以被盜賊使用，以獲取不當利益或進行犯罪活動，這設計將威脅到個人隱私。此外該技術更容易製造不實訊息和虛假新聞，進一步掩藏實質訊息、降低新聞產品品質。

結論

新聞文章呈現了科技領域的一個新進展。在應用這項技術時，我們必須考慮到道德的問題，以保護個人隱私。未來這項技術還需要更好的改進和制度的支援以達成更大化的利益。

Artificial Intelligence-speechsynthesis,artificialintelligence,voicetechnology,naturallanguageprocessing,simulation,editing

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集

模擬口型生成人工語音技術：探索與編輯

文章目錄

電腦模擬語音技術進展：以人臉嘴脣運動為模型

簡介

技術及方法

應用前景

倫理與憂慮

結論

延伸閱讀

保羅·麥卡特尼使用 AI 創作出新的披頭四樂曲

Spotify 因 GDPR 資料存取投訴在瑞典遭罰款

程宇肖