
等待中的聲音複製技術:OpenAI 的 Voice Engine
去年三月底,OpenAI 宣布了一項名為 Voice Engine 的人工智慧服務的「小規模預覽」。該公司聲稱,這個工具只需 15 秒的語音就能複製一個人的聲音。然而時至今日,這個工具仍處於預覽階段,OpenAI 並未透露何時會正式推出,或者是否會推出。公司對廣泛推出該服務的猶豫,可能反映出對濫用的擔憂,也可能是為了避免引起監管機構的審查。OpenAI 歷來被指責為了推出「閃亮的產品」而犧牲安全性,並且為了搶在競爭對手之前上市而匆忙發布產品。OpenAI 的發言人在接受 TechCrunch 採訪時表示公司正在與一小群「值得信賴的合作夥伴」繼續測試 Voice Engine。「我們正在學習這些合作夥伴如何使用這項技術,以便我們能夠改進模型的實用性和安全性,」發言人說。「我們很興奮看到它被用於各種不同的用途,從語言治療、語言學習、客戶支援,到遊戲角色和 AI 頭像。」
Voice Engine 的推遲與發展
Voice Engine 是 OpenAI 文字轉語音 API 和 ChatGPT 語音模式的聲音來源,能夠生成與原始講者非常相似的自然聲音。該工具將書面字元轉換為語音,僅受某些內容約束的影響。但從一開始,這個工具就遭遇了延遲和發布視窗的變動。OpenAI 在 2024 年 6 月的一篇部落格文章中解釋說,Voice Engine 模型學習如何預測講者對於特定文字記錄可能發出的最可能聲音,考慮到不同的聲音、口音和講話風格。之後,該模型不僅能生成文字的語音版本,還能生成反映不同型別講者如何朗讀文字的「語音表達」。根據 TechCrunch 看到的草稿部落格文章,OpenAI 最初打算在 2024 年 3 月 7 日將 Voice Engine(最初稱為 Custom Voices)引入其 API。計劃是先讓最多 100 名「值得信賴的開發者」存取該工具,優先考慮那些提供「社會利益」或展示「創新和負責任」使用技術的開發者應用。OpenAI 甚至已經註冊了商標,並定價為每百萬字元 15 美元的「標準」聲音和每百萬字元 30 美元的「高畫質質量」聲音。然而在最後一刻,公司推遲了宣布。OpenAI 最終在幾週後發布了 Voice Engine,但沒有提供註冊選項。該公司表示該工具的存取許可權將僅限於 2023 年底開始合作的大約 10 名開發者。「我們希望開始對合成聲音的負責任部署展開對話,並討論社會如何適應這些新能力,」OpenAI 在 2024 年 3 月底的聲音引擎公告部落格文章中寫道。「基於這些對話和這些小規模測試的結果,我們將更有依據地決定是否以及如何大規模部署這項技術。」
長期開發中的聲音引擎
根據 OpenAI 的說法,Voice Engine 自 2022 年起就開始開發。該公司聲稱,在 2023 年夏天向「最高層級的全球政策制定者」展示了該工具,以展示其潛力和風險。當前幾家合作夥伴已經可以使用 Voice Engine,其中包括正在開發裝置以使殘疾人士能夠更自然地溝通的新創公司 Livox。Livox 的 CEO 卡洛斯·佩雷拉(Carlos Pereira)告訴 TechCrunch,儘管由於該工具的線上要求(許多 Livox 的客戶沒有網際網路),Livox 最終無法將 Voice Engine 整合到產品中,但他認為這項技術「非常令人印象深刻」。「聲音的質量以及聲音能夠以不同語言說話的可能性是獨一無二的——特別是對於我們的殘疾客戶,」佩雷拉透過電子郵件告訴 TechCrunch。「這是我見過的最令人印象深刻且易於使用建立聲音的工具之一……我們希望 OpenAI 能夠盡快開發出離線版本。」佩雷拉說,他沒有從 OpenAI 那裡收到任何關於 Voice Engine 可能發布的指導,也沒有看到任何跡象表明公司計劃開始收費。到當前為止,Livox 還不需要為其使用付費。在上述 2024 年 6 月的文章中,OpenAI 暗示,延遲 Voice Engine 的一個考慮因素是去年美國選舉周期期間可能的濫用。根據與利益相關者的討論,Voice Engine 有幾項緩解安全措施,包括用於追蹤生成音訊來源的水印。根據 OpenAI 的說法,開發者必須在使用 Voice Engine 之前獲得原始講者的「明確同意」,並且必須向其觀眾明確披露聲音是 AI 生成的。然而該公司並未說明如何執行這些政策。即使對於像 OpenAI 這樣有資源的公司,在大規模執行這些政策也可能是極其具有挑戰性的。在其部落格文章中,OpenAI 還暗示希望建立一個「聲音身份取證體驗」來取證講者以及一個「禁止列表」,防止建立與知名人物聲音過於相似的聲音。這兩個都是技術上雄心勃勃的專案,如果做錯了,將對一個經常被指責忽視安全舉措的公司造成不良影響。有效的過濾和身份取證正在迅速成為負責任的聲音複製技術發布的基本要求。根據某個來源,AI 聲音複製是 2024 年增長最快的第三大詐騙。這導致了詐騙和銀行安全檢查被繞過,因為隱私和版權法難以跟上。惡意行為者已經使用聲音複製建立了名人和政治家的煽動性深度偽造,這些深度偽造在社交媒體上迅速傳播。OpenAI 可能會在下週發布 Voice Engine——或者永遠不會。該公司一再表示它正在考慮保持該服務的範圍小。但有一件事很清楚:無論是出於形象原因、安全原因,或兩者兼而有之,Voice Engine 的有限預覽已成為 OpenAI 歷史上最長的預覽之一。
延伸閱讀
- OpenAI 的創意寫作 AI 讓人想起高中文學社那個討人厭的孩子
- 微軟加速 AI 研發程式,直指 OpenAI 競爭對手
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- OpenAI 計劃將 Sora 影片生成器整合至 ChatGPT,開啟創意新視界!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 「OpenAI 為付費 ChatGPT 使用者推出深度研究功能,探索智慧對話的新境界!」
- 《OpenAI 為何尚未將深度研究成果引入其 API?背後原因大揭密!》
- OpenAI 計劃將計算需求從微軟轉移至軟銀,背後的戰略考量曝光!
- OpenAI 努力破解 ChatGPT 的約束,帶你進入無阻礙的對話世界!