Meta 發布一款能夠轉錄和翻譯近 100 種語言的人工智慧模型

Meta 推出能夠轉錄和翻譯近 100 種語言的 AI 模型導言在追求開發能夠理解各種不同方言的人工智慧（AI）的過程中，Meta 公司建立了一個名為 SeamlessM4T 的 AI 模型，它可以在文字和語音之間翻譯和轉錄近 100 種語言。該模型是開源的，並附帶了一個新的翻譯資料集 Seamle .... (往下繼續閱讀)

by 程宇肖
2023/8/22
11 分鐘閱讀時間

A- A A+

文章目錄

Meta 推出能夠轉錄和翻譯近 100 種語言的 AI 模型

導言

在追求開發能夠理解各種不同方言的人工智慧（AI）的過程中，Meta 公司建立了一個名為 SeamlessM4T 的 AI 模型，它可以在文字和語音之間翻譯和轉錄近 100 種語言。該模型是開源的，並附帶了一個新的翻譯資料集 SeamlessAlign。Meta 聲稱 SeamlessM4T 在 AI 驅動的語音-文字和語音-語音轉錄方面代表了一個“重大突破”。然而人們不禁擔憂這個模型可能存在哪些偏見和負面影響。

背景

SeamlessM4T 可以被視為 Meta 公司早期模型 No Language Left Behind 和 Universal Speech Translator 的精神繼承者。該模型還建立在 Massively Multilingual Speech 的基礎上，這是 Meta 提供超過 1100 種語言的語音識別、語言識別和語音合成技術的框架。然而 Meta 並非唯一一家投資資源開發先進 AI 翻譯和轉錄工具的公司。除了 Amazon、Microsoft、OpenAI 和許多新創公司提供的商業服務和開源模型外，Google 還開發了所謂的“通用語音模型”，這是該技術巨頭努力打造的能夠理解世界上使用最廣泛的 1000 種語言的模型。

資料收集與模型訓練

Meta 聲稱他們透過從網路上爬取公開可用的文字（大約數十億句子）和語音（400 萬小時）來開發 SeamlessM4T。在 TechCrunch 的一次採訪中，Meta 的 AI 研究部門研究科學家 Juan Pino 拒絕透露具體的資料來源，只表示它們“各種各樣”。Meta 使用這些文字和語音建立了 SeamlessM4T 的訓練資料集 SeamlessAlign。研究人員將 443,000 小時的語音與文字進行了對齊，並建立了 29,000 小時的“語音到語音”的對齊，這些對齊“教會”了 SeamlessM4T 如何將語音轉錄成文字，翻譯文字，從文字生成語音，甚至將一種語言中的詞語翻譯成另一種語言的詞語。

模型的偏見和問題

然而我們不禁擔心這個模型可能存在哪些偏見。一篇最近在《The Conversation》上的文章指出了 AI 翻譯中的許多缺陷，包括不同形式的性別偏見。例如，Google 翻譯曾經假定在某些語言中醫生是男性，而護士則是女性；而 Bing 的翻譯器則將“the table is soft”（這張桌子很軟）這樣的短語在德語中翻譯為“die Tabelle”（這張表）。 Speech recognition algorithms 也經常包含偏見。《美國國家科學院院刊》發表的一項研究表明，領先公司的語音識別系統在確保錄音來自黑人講者還是白人講者時，出現錯譯的機會是黑人的兩倍。SeamlessM4T 在這方面並不獨特。在白皮書中，Meta 透露該模型“在翻譯中的中性詞語時，普遍過度使用陽性詞語”，對大多數語言來說當從陽性參考（例如英文中的名詞“他”）翻譯時，SeamlessM4T 的表現更好。此外在沒有性別訊息的情況下，SeamlessM4T 在翻譯時更喜歡使用陽性形式，據 Meta 推測，這可能是由於訓練資料中陽性詞匯的過度代表性。此外 SeamlessM4T 在某些語言（例如孟加拉語和柯爾克孜語）的翻譯中更容易出現帶有負面意味的翻譯，例如涉及社會經濟地位和文化的毀謗性或粗鄙的翻譯。Meta 指出，SeamlessM4T 的公開示範版本在輸入的語音中包含對毒性的過濾器以及對可能產生毒性輸出的語音的過濾器。然而在模型的開源版本中，這些過濾器則不是預設存在的。

翻譯中存在的問題

AI 翻譯的一個更大問題在於，由於濫用而導致的語言豐富度的損失。與 AI 不同，人類翻譯員在將一種語言翻譯為另一種語言時會做出獨特的選擇。他們可能進行解釋、標準化或總結和摘要，從而創造出非正式的“translationese”特徵。AI 系統可能會生成更“準確”的翻譯，但這些翻譯可能是以翻譯的多樣性和豐富性作為代價。或許這就是為什麼 Meta 建議不要將 SeamlessM4T 用於長篇翻譯和政府機構和翻譯機構認可的翻譯（如認證翻譯）的原因。Meta 還不建議將 SeamlessM4T 應用於醫療或法律目的，這樣做可能只是為了在發生翻譯錯誤時提供保護。這是明智的舉措；在一些案例中，AI 的翻譯錯誤已經導致了執法錯誤。

結論

總之 Meta 推出的 SeamlessM4T 模型可以被看作是 AI 翻譯和轉錄方面更有野心的努力之一。然而我們不得不關注這些模型可能存在的偏見和負面影響。為了提高模型的準確性和可靠性，在模型訓練和應用的過程中，需要更嚴謹的資料倫理和監管措施。此外我們應該保持對人類翻譯員和解譯員的需求和尊重，因為他們在翻譯和跨文化溝通方面帶來了獨特的價值。

對 Meta 及其競爭對手的建議

首先對於 Meta 及其競爭對手，要加固對資料的收集和使用方式的透明度。使用公開可用的資料來訓練 AI 模型應該要遵從盡可能多的道德和法律準則，並且能提供足夠的證實來證實資料的合法性和一致性。其次需要進一步完善模型的偏見檢測和修正機制，以減少對性別、種族、宗教等方面的偏見。此外建議透過與相關社群和專業人士的協作，定期審查和更新應用中的過濾器和選項，以確保防止毒性輸出和翻譯中的質量問題。

祝福的希望和結語

最後希望 Meta 及其競爭對手能夠繼續努力發展人工智慧技術，以實現更高效、更準確、更多樣化和包容性的翻譯和轉錄能力。然而我們也希望 AI 不會完全取代人類翻譯員和解譯員的角色，因為他們在人際溝通和跨文化交流中仍然具有不可替代的價值。只有在人和機器之間實現良好的協作，我們才能更好地實現無縫的翻譯和跨文化交流目標。

ArtificialIntelligence,LanguageTranslation,Transcription-wordpress,AI,模型,翻譯,轉錄,語言,Meta

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集