
人工智慧模型加速高解析度電腦視覺技術
Adam Zewe,麻省理工學院
一個針對高解析度電腦視覺的機器學習模型,可以使那些需要大量計算的視覺應用(如自駕車或醫學影像分割)在邊緣裝置上執行。這是研究人員最近取得的成果。
為了讓自駕車迅速而精確地辨識所遇到的物體,從街角上停著的運輸車到向著交叉口衝來的腳踏車,該車輛可能會使用一個強大的電腦視覺模型,對影象中的每個畫素進行分類,以便不會失去在低質量影象中可能被遮蔽的物體。但這項任務被稱為語義分割,它很複雜,並且當影象具有高解析度時需要大量計算。麻省理工學院(MIT)、麻省理工-IBM 沃森人工智慧實驗室以及其他地方的研究人員開發了一種更高效的電腦視覺模型,大大降低了這項任務的計算複雜度。他們的模型能夠在資源有限的裝置上實時準確地執行語義分割,這些裝置包括使自駕車能夠做出即時決策的車載計算機。
模型簡介
最近的最新技術模型可以直接學習影象中每對畫素之間的互動作用,因此隨著影象解析度的增加,計算量會呈二次增長。雖然這使模型更加準確,但它們無法在邊緣裝置(如感測器或手機)上實時處理高解析度影象。麻省理工學院的研究人員為語義分割模型設計了一種新的構建塊,該構建塊擁有與這些最新技術模型相同的功能,但僅具有線性計算複雜度和硬體高效性。研究人員投入使用此模型系列進行高解析度電腦視覺研究,結果在移動裝置上執行速度比先前的模型快 9 倍。
值得一提的是,這個新的模型系列在準確度上表現出相同或更好的結果。這種技術不僅可以幫助自駕車實時做出決策,還可以提高其他高解析度電腦視覺任務(如醫學影像分割)的效率。
研究人員指出,儘管研究人員在傳統視覺轉換方面已經做了很長時間的工作,並取得了驚人的結果,但我們希望人們也關注這些模型的效率。我們的研究表明,可以大大減少計算量,從而使實時影象分割能夠在裝置上進行本地計算。
編者評論
這項研究的結果對於提高高解析度電腦視覺應用的效率具有重要意義。對於自動駕駛技術來說能夠在邊緣裝置上實時進行準確的語義分割非常重要,這樣自駕車才能對路上的物體做出及時反應。同樣,對於醫學影像分割等其他高解析度電腦視覺任務來說提高效率至關重要。
然而需要注意的是,這種技術的線性注意模式僅捕獲了影象的全域性內容,可能會失去區域性訊息,從而影響準確性。研究人員透過在模型中新增兩個額外的元件來補償這種準確性損失。其中一個元件有助於模型捕獲區域性特徵互動作用,緩解線性函數在提取區域性訊息方面的弱點。第二個元件則實現了多尺度學習,使模型能夠識別大型和小型物體。
此研究中最關鍵的部分是需仔細平衡效能和效率。研究人員設計了一個硬體友好的架構,以便在不同型別的裝置上執行,例如虛擬現實頭盔或自駕車上的邊緣計算機。他們的模型也可以應用於其他電腦視覺任務,如影象分類。
建議
隨著自駕車和其他高解析度電腦視覺應用的發展,提高效率和實時性將是一個重要的議題。這項研究提出的新模型可以在有限的硬體資源上實現高效的語義分割,並具有相當的準確性。這對於自駕車等應用來說非常有價值,因為它們需要在實時環境中做出即時決策。
此外這項研究的成果還可以應用於其他電腦視覺任務,如醫學影像分割。提高高解析度電腦視覺應用的效率對許多領域都有重要意義,包括醫學、運輸和安全監控等。
此外在進一步的研究中,可以將這種技術應用於生成式機器學習模型,例如用於生成新影象的模型。這將有助於加快其他型別的機器學習模型的速度。
原文連結:AI model speeds up high-resolution computer vision (2023, September 12)
延伸閱讀
- OpenAI 的創意寫作 AI 讓人想起高中文學社那個討人厭的孩子
- 亞馬遜成立新型代理 AI 團隊,將如何改變科技未來?
- 「搶先報名!TechCrunch Sessions: AI 演講者申請截止日期迫在眉睫!」
- MWC 最新報導:AI 影響力的兩極化觀點首次曝光!
- 亞馬遜新推出 Alexa+:為孩子們帶來 AI 驅動的「探索」與「故事」新功能!
- Bridgetown Research 載著 AI 助力,成功募資 1900 萬美元加速盡職調查!
- Nomagic 獲得 4400 萬美元資金,AI 驅動的機器手臂技術將改變未來!
- 全方位理解 Anthropic 的 AI:揭開 Claude 的神祕面紗!
- 微軟刪除 AI 資料中心租賃,背後原因何在?
- Perfect 獲得 2300 萬美元資金,運用 AI 革新招聘流程!