研究顯示人類無法辨識超過四分之一的深偽語音樣本

新研究顯示人類無法辨識超過四分之一的深偽語音樣本總覽英國倫敦大學學院（University College London）的最新研究發現，人類只能在 73%的時間內辨識出人工生成的語音，並且在英語和漢語中的辨識準確性相同。這項研究發表在《PLoS ONE》期刊上，是首個評估人類辨識非英語生成的語音能 .... (往下繼續閱讀)

by 程宇肖
2023/8/3
7 分鐘閱讀時間

A- A A+

文章目錄

新研究顯示人類無法辨識超過四分之一的深偽語音樣本

總覽

英國倫敦大學學院（University College London）的最新研究發現，人類只能在 73%的時間內辨識出人工生成的語音，並且在英語和漢語中的辨識準確性相同。這項研究發表在《PLoS ONE》期刊上，是首個評估人類辨識非英語生成的語音能力的研究。深偽是一種旨在模模擬實人的聲音或外貌的合成媒體，屬於生成式人工智慧的一類，即機器學習的一種方式，該方式透過訓練演算法來學習資料集（如真實人的影片或音訊）的模式和特徵，從而能夠產生原始聲音或影象。

人工生成語音的能力

早期的深偽語音演算法可能需要成千上萬個該人的語音樣本，才能夠生成原始音訊，而最新的預先訓練的演算法僅需該人三秒的說話片段即可重現其聲音。開源的演算法是免費提供的，雖然具備一定的專業知識會對訓練有幫助，但個人在幾天內就能夠學會如何訓練這些演算法。

科技公司蘋果最近宣布了一款軟體，允許使用者使用 15 分鐘的錄音建立自己的語音副本。

倫敦大學學院的研究人員使用了一種文字到語音（TTS）演算法，該演算法是在兩個公開可用的資料集（英語和漢語）上進行訓練的，以生成每種語言 50 個深偽語音樣本。這些樣本與演算法訓練所用的樣本不同，以避免它複製原始輸入。這些人工生成的樣本和真實樣本被播放給 529 名參與者，以測試他們是否能夠辨識真偽。

結果發現，參與者只能在 73%的時間內辨識出深偽語音，即使他們接受了訓練以識別深偽語音的特徵，其辨識準確性也只有微小的提升。

研究的首席作者 Kimberly Mai（倫敦大學學院電腦科學）表示：「我們的研究結果證實，無論是否接受了識別深偽內容的訓練，人類都無法可靠地辨識深偽語音。值得注意的是，我們在這項研究中使用的樣本是使用相對較舊的演算法建立的，這就引出了一個問題，即人類是否能夠辨識出使用現在和未來最先進技術建立的深偽語音。」

深偽語音的潛在威脅與作用

研究人員的下一步目標是開發更好的自動語音檢測器，作為持續努力的一部分，以抵擋人工生成音訊和影象的威脅。雖然生成式人工智慧音訊技術具有一些好處，例如為語言能力有限或由於疾病失去語音的人提供更大的可用性，但人們越來越擔心這種技術可能被罪犯和國家利用來對個人和社會造成重大傷害。

已經有一些記錄下的案例涉及罪犯使用深偽語音來欺騙他人，例如 2019 年的一起事件，一名英國能源公司的 CEO 被一段深偽語音錄音以其上司的聲音說服轉帳數十萬英鎊給一個虛假供應商。

倫敦大學學院電腦科學教授 Lewis Griffin（本研究的高級作者）表示：「隨著生成式人工智慧技術越來越成熟，許多這些工具可以公開取得，我們即將看到眾多好處和風險同時出現。政府和組織應該謹慎制定應對這些工具濫用的策略，同時我們也應該意識到即將到來的積極可能性。"

結論

人們無法可靠地辨識深偽語音，這一研究結果引發了對人工生成音訊技術的潛在威脅和作用的關注。儘管這項技術可以帶來某些好處，但也存在著滋生罪惡和造成社會傷害的風險。

有必要發展更好的自動語音檢測器來應對這一威脅。政府和組織應該致力於制定相應策略，以保護個人和社會免於深偽語音的濫用，同時也要善於把握這項技術給我們帶來的積極可能性。

Deepfake-wordpress,語音辨識,深偽,研究,人類,樣本

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集

研究顯示人類無法辨識超過四分之一的深偽語音樣本

文章目錄

新研究顯示人類無法辨識超過四分之一的深偽語音樣本

總覽

人工生成語音的能力

深偽語音的潛在威脅與作用

結論

延伸閱讀

Mondee 安全漏洞曝光航班行程和未加密的信用卡號碼

Subaru 翻倍增加新電動車計劃，2028 年目標推出 8 款車型

程宇肖