
研究團隊開發出能夠將房間分為不同語音區域的變形智慧音箱
引言
在預錄會議中,很容易讓人們不會相互打斷對話,只需按下靜音鍵即可。然而在現實中的聚會場合,要掌控聲音卻相對困難。例如,在繁忙的咖啡廳中,無法按下按鈕來消除旁邊桌子上的嘈雜聲音。能夠定位和控制聲音,例如在擁擠的房間中分離開說話的人,一直是研究人員的難題,尤其在缺乏攝像頭提供視覺線索的情況下。然而華盛頓大學的研究團隊率先開發出一種變形智慧音箱,利用自動展開的麥克風將房間劃分為不同的語音區域,並追蹤每個說話者的位置。
變形智慧音箱的功能
這款變形智慧音箱透過研究團隊的深度學習算法,讓使用者可以靜音某些區域或分離同時進行的對話,即使相鄰的兩個人有類似的聲音。這些麥克風彷彿一群面積僅為一英寸的 Roomba 機器人,可以自動展開並返回充電站。這讓系統可以在不同環境之間移動並自動設定。例如,在會議室中,可以使用這樣的系統取代中央麥克風,以更好地控制室內音訊。
基於聲音的技術突破
與以前的研究不同,該研究團隊開發的系統僅使用聲音來準確分布一群機器人。這些機器人原型由七個小機器人組成,可以自己在各種大小的桌子上散開。它們會發出一種高頻聲音,就像蝙蝠在導航時使用的聲音,並利用這種頻率和其他感測器避免障礙物並在桌子上移動。自動展開使得機器人能夠以最大精確度放置自己,從而比人類更好地控制聲音。機器人根據彼此之間的距離盡可能散開,因為距離越大越容易把不同的說話者區分開來。該系統在辦公室、客廳和廚房等多種環境中進行了測試,結果表明系統可以在 90%的時間內識別出彼此距離不超過 1.6 英尺(50 釐米)的不同聲音,而不需要事先理解說話者的數量。該系統平均能夠在 1.82 秒的時間內處理 3 秒的音訊,足夠快以支援即時串流,但對於視訊通話等實時通訊來說可能有些慢。
潛在應用和未來發展
隨著技術的進步,研究人員表示聲音群集可能被應用在智慧家居中,以更好地區分與智慧音箱交談的人。例如,只有坐在沙發上的人才能夠透過聲音控制電視。研究人員計劃最終開發出可以在房間中移動的麥克風機器人,而不僅僅限於桌子上。同時團隊還在研究是否可以利用聲音來實現現實世界中的靜音和活躍區域,從而使房間的不同區域可以聽到不同的音訊。
隱私問題與對策
與情節小說中的間諜工具相比,這種技術無疑會引起人們對隱私的擔憂。研究人員已經意識到了潛在的濫用風險,因此他們在系統設計中加入了保護措施。這款音箱使用聲音導航,而不是像其他類似系統一樣使用機器上的攝像頭。機器人在活動時會閃爍燈光,並且非常明顯。此外音訊處理是在本地進行的,而不是像大多數智慧音箱那樣在雲端進行,以保護隱私。研究團隊還強調該系統不僅僅用於監視,還能夠應用在保護隱私方面。例如,使用者可以要求系統不錄下自己辦公桌周圍的任何聲音,這樣系統會在三英尺範圍內建立一個專屬的隱私空間,該空間內的聲音將不會被錄製。如果兩組人正在旁邊進行對話,一組人正在進行私人對話,而另一組人正在錄製,系統可以將一組對話置於靜音區域,保持私密性。
結論
華盛頓大學的研究團隊開發出的變形智慧音箱利用自動展開的麥克風將房間劃分為不同的語音區域,並追蹤每個說話者的位置。這項技術在會議室、家庭和廚房等各種環境中進行了測試,證實其在區分不同聲音方面的高精度。雖然這項技術可能引發人們對隱私問題的擔憂,但研究人員已經採取了多種措施來解決這些問題,例如使用聲音導航而非攝像頭、在本地進行音訊處理以保護隱私等。此外該技術還有許多未來發展的方向,例如能夠移動的麥克風機器人和實現真實世界靜音和活躍區域的功能。
參考資料
- Research team's shape-changing smart speaker lets users mute different areas of a room. (2023, September 21). Retrieved from https://techxplore.com/news/2023-09-team-shape-changing-smart-speaker-users.html