網路議題

認識 SeamlessM4T,一個能將 100 種語言即時翻譯為語音或文字的 Meat AI 模型

AI 模型 SeamlessM4T:移除語言障礙的新突破概述 Meta 最近推出了一種稱為 SeamlessM4T 的 AI 多模式語言翻譯模型。該模型能夠理解近 100 種語言的語音或文字,並即時進行翻譯。SeamlessM4T 的開放使用使研究人員能夠在其基礎上構建並引入通用的應用,包括語音到語音 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

認識 SeamlessM4T,一個能將 100 種語言即時翻譯為語音或文字的 Meat AI 模型

AI 模型 SeamlessM4T:移除語言障礙的新突破

概述

Meta 最近推出了一種稱為 SeamlessM4T 的 AI 多模式語言翻譯模型。該模型能夠理解近 100 種語言的語音或文字,並即時進行翻譯。SeamlessM4T 的開放使用使研究人員能夠在其基礎上構建並引入通用的應用,包括語音到語音、語音到文字、文字到語音和文字到文字的翻譯。這一技術的推出對語言學中的人工智慧應用來說是一個重大的突破,因為 SeamlessM4T 能夠以單個系統同時執行語音和文字上的多個任務,而以前這往往需要不同的系統。

SeamlessM4T 的功能

根據 Meta 的解釋,SeamlessM4T 無需單獨的語言識別模型,就能隱式識別源語言。它能夠檢測近 100 種語言的語音和文字,並生成近 100 種語言的文字以及 36 種語言的語音。更有意思的是,它還能夠識別同一句子中多種語言的混合,並提供單一目標語言的翻譯(例如,將泰盧固語和印地語混合的句子譯成英語語音)。

SeamlessM4T 的效能

在被稱為 BLASER 2.0 的測試中,SeamlessM4T 在語音到文字的任務中對抗背景噪音和講話者變異方面的表現優於當前的最先進模型(平均改進分別為 37%和 48%)。Meta 在一篇博文中表示 SeamlessM4T 優於此前的最先進競爭對手。該技術還顯著提高了低資源語言(數位足印較小)的效能,並在高資源語言(如英語)上保持了良好的效能。當開發完成時,這將實現大規模的通用翻譯系統,讓說不同語言的人更有效地溝通。值得注意的是,Google 也在這方面進行著工作,並宣布了通用語音模型(USM),該模型能夠對廣泛使用和資源不足的語言進行自動語音識別。

SeamlessM4T 的執行原理

為了實現這一模型,Meta 從公共來源中挖掘了網路資料(數十億句子)和語音資料(400 萬小時),並進行匹配,以建立 SeamlessAlign 資料集。根據公司的說法,他們成功對齊了超過 44.3 萬小時的語音和文字,並生成了約 2.9 萬小時的語音對語音對齊資料。利用這些資料,Meta 訓練了多工的 UnitY 模型,以產生所期望的多模式結果。Meta 解釋道:“多工的 UnitY 模型由三個主要的線序元件組成。文字和語音編碼器用於識別近 100 種語言的輸入。文字解碼器將其轉換為近 100 種語言的文字,然後使用一個文字到單元模型將其解碼為 36 種語言的離散聲學單元…離散解碼單元然後使用多語言 HiFi-GAN 單元語音解碼器轉換為語音。”

仍然存在的問題

值得注意的是,SeamlessM4T 當前仍然遠未達到完美。評估發現,該模型存在有毒內容(相較於最先進的模型要低 63%)和性別偏見問題。根據解釋,當從中性詞語進行翻譯時,SeamlessM4T 在偏好男性形式方面存在通常高於 10%的情況,同時在變化 3%的性別問題上表現不夠強大。“我們在展示過程中檢測到輸入和輸出中的有毒內容。” Meta 表示“如果只在輸出中檢測到有毒內容,則意味著新增了有毒內容。在這種情況下,我們會顯示一個警告並且不顯示相關的輸出……至於偏見,我們已經開展了評估語言中性別偏見的工作,可以對數十種語音翻譯方向量化其性別偏見,並透過將多語言全面偏見資料集擴充套件到語音領域來更好地理解這些偏見。”公司強調這仍然是一個持續的工作,他們將繼續研究並採取行動,以進一步提高 SeamlessM4T 模型的強健性和安全性。

總結與建議

SeamlessM4T 模型的推出對於移除語言障礙、提高跨語言溝通效率具有重要意義。然而由於這一技術當前仍然存在有毒內容和性別偏見等問題,我們需要保持警惕,並與 Meta 一同努力改進模型的強健性和安全性。

對於研究人員和開發人員來說 SeamlessM4T 提供了一個有利的開發平臺,使他們能夠構建通用的翻譯應用,從而實現不同語言之間的溝通。然而必須謹慎處理和平衡自動翻譯的使用,以免產生有毒內容或加重現有的偏見問題。

對於使用者來說可以更方便快捷地使用 SeamlessM4T 來進行跨語言溝通。然而考慮到其仍然存在的問題,特別是有毒內容和偏見問題,我們建議使用者在使用自動翻譯時保持警惕,並檢查並適當修正可能存在的錯誤翻譯。

SeamlessM4T 的問世是一個重要的裏程碑,它為我們實現無障礙的全球溝通提供了新的可能性。然而我們需要與諸如 Meta 這樣的公司一起努力,解決技術中存在的問題,以確保使用者能夠更準確、更安全地利用這一技術。

Languagetranslation-SeamlessM4T,語言翻譯,AI 模型,即時翻譯,語音翻譯,文字翻譯
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。