科學家開發新型人工智慧系統 SALMONN,實現對音訊的理解和推理
研究人員發展了一個名為 SALMONN 的新型人工智慧系統,使機器能夠理解和推理語音、聲音和音樂等音訊輸入。這個系統將兩個專門的人工智慧模型──一個用於處理語音,一個用於處理一般音訊──合併為一個能夠對音訊提示產生文字回應的大型語言模型(LLM)。
根據一篇發表在 arXiv 上的研究論文,科學家們將 SALMONN 描述為「一個能夠處理語音、音訊事件和音樂輸入的大型語言模型」。這個系統能夠感知和理解各種音訊輸入,因此具有多語言語音識別和翻譯以及音訊-語音協同推理等新興能力。「這可以被視為為 LLM 帶來『耳朵』和認知聽力能力」,論文中寫道。 研究人員在一系列音訊輸入上展示了 SALMONN 的能力,包括語音片段、槍聲、鴨子叫聲和音樂。在每個音訊片段提示下,系統產生了適當的描述性文字回應,展示了對音訊內容的理解。「文字提示用於指示 SALMONN 回答關於一般音訊輸入的開放性問題,答案以 LLM 的文字回應形式呈現」,論文解釋道。科學家稱,這種認知音訊問答技術相對於僅能進行基本轉錄的傳統人工智慧語音和音訊系統來說代表著重大的飛躍。「與傳統的語音和音訊處理任務(如語音識別和音訊字幕)相比,SALMONN 利用 LLM 的一般知識和認知能力實現了一種以認知為導向的音訊感知,從而顯著提高了模型的多功能性和任務豐富性」,論文中寫道。 研究人員還提到,SALMONN 還具有跨模態能力,例如無需進行明確的語音-文字翻譯訓練即可遵從口述指令。「SALMONN 只使用基於文字命令的訓練資料,聆聽口述指令也是一種跨模態的新興能力」,他們寫道。雖然當前的能力令人鼓舞,但研究人員承認該模型在推理深度方面存在一定的局限性。然而他們對未來的潛力持樂觀態度,並表示 SALMONN「為實現具有聽覺功能的人工通用智慧邁出了一步」。SALMONN 對企業資料分析的潛在影響
對於技術決策者來說 SALMONN 的這一突破可能預示著語音啟用資料分析和商業智慧的新時代。SALMONN 理解和解讀各種音訊輸入的能力,可能徹底改變企業與資料互動的方式,消除了對傳統基於文字的輸入的需求,並為語音啟用分析和資料驅動的決策開闢新的可能性。
此外該團隊還發布了一個基於 Web 的展示,讓使用者第一手體驗 SALMONN 的能力。該模型還可以在 Hugging Face 上使用,Hugging Face 是一個領先的機器學習模型託管和共享平臺。在快速發展的人工智慧領域,SALMONN 的揭示為機器學習和認知計算的未來提供了一個有趣的預覽。它凸顯了位元組跳動和清華大學推動 AI 的極限的承諾。隨著我們越來越接近一個不僅可以透過計算機視覺「看見」,還可以透過認知音訊處理「聽見」的世界,對於企業和消費者而言,其影響將是深遠的。 VentureBeat 致力於成為技術決策者獲取關於轉型企業技術和交易的數位城鎮廣場。理解我們的簡報。 關鍵詞:位元組跳動、人工智慧、SALMONN、音訊、音樂、聲音位元組跳動 AISALMONN-位元組跳動,AI,SALMONN,音訊,音樂,聲音
延伸閱讀
- OpenAI 考慮允許 AI 色情內容?
- 資料科技公司 Daloopa 開發 AI 以自動化財務分析工作
- 今年的 Met Gala 主題是 AI 極深假裝
- Y Combinator 幫助醫療記錄 AI 新創 Hona 募得 300 萬美元 的故事
- Pinterest AI 打造的拼貼圖比單張針腳更吸睛
- Atlassian 推出新的 AI 同事 Rovo
- 三星的營運利潤飆升 930%,AI 動能帶動記憶晶片需求
- GitHub 推出 Copilot Workspace:AI 驅動的軟體工程空間
- 「馬斯克的 xAI 示範 AI 新創公司的龐大市場潛力」
- 照片分享社群 EyeEm 將許可使用者的照片以訓練 AI,如果使用者不刪除照片