
探索更銳利的計算機視覺技術:自駕車與半機械化頭像
最近,RIKEN 的研究人員透過微調影象增強算法展示了計算機視覺識別能力的巨大提升,該技術適用於許多應用,包括自駕車和半機械化頭像。與大多數人工智慧專家不同的是,RIKEN 高級智慧計劃中心的林谷一開始是一名治療師,這讓他對尺度變異有獨特的見解,這是數位影象中精確檢測不同尺度物體的困難。由於大多數 AI 系統都是在高解析度影象上進行訓練的,現實中低質量的圖片具有模糊或失真的特徵,這對識別算法構成了挑戰。這種情況讓谷想起阿麗斯·夢遊仙境症候群,這是一種導致物體看起來比實際大小小或大的視覺錯覺。谷表示:“人類視覺尺度不變性,意味著我們會認為物體大小保持不變,盡管視網膜影象在變化,但現有的計算機視覺算法卻缺乏這種不變性,就像阿麗斯一樣。”
精度不變將成為未來技術的基礎
現在谷和同事受到大腦形成記憶使用的海馬回放技術的啟發,開發了一種模型,可以隨機降低高解析度影象的解析度、模糊度和噪聲等,並尋找重複更改後保持不變的特徵。該研究發表在“計算機視覺-ECCV2022”上。透過在生成的資料上進行訓練,算法可以進行自我監督學習,幫助其他影象處理算法找出影象中的物體以及它們的位置,無需人工幹預。結果是:一種更加計算效率的編碼和恢復影象關鍵細節的方法。谷解釋說:“在典型的自我監督學習方法中,訓練資料通常是被遮擋或改變對比度的影象,而這次我們首次提出使用解析度作為自我監控線索的方法。”除了典型的計算機視覺用途外,谷指出,感知恆定表示將成為與半機械化頭像和人類協作相關技術的基礎,他舉了日本科學機構參與的一個未來專案的例子,該專案旨在建立一個可以與公民互動的政府部長的逼真數位版本。谷說:“在人工記憶機制中,對解析度變化不變的表示可以作為關鍵石柱,我正在與 RIKEN 的神經科學家一起研究人工與大腦中真實的恆定表示之間的關係。”此方法還應用於太赫茲成像,太赫茲成像是一種新興的非破壞成像技術,在生物醫學、安全和材料表徵等方面有巨大的潛力。谷表示:“我們正在與牛津大學的邁克爾·約翰斯頓團隊進行持續的合作,利用人工智慧提高成像質量和解析度,研發新一代太赫茲成像裝置。”
結語
綜上所述,RIKEN 的研究人員透過微調影象增強算法展示了計算機視覺識別能力的巨大提升。 Lin Gu 從實踐出發,發現了影象中存在的尺度變異問題,他與同事們透過海馬回放技術的啟發,開發了一種隨機降低高解析度影象的解析度、模糊度和噪聲等,並尋找重複更改後保持不變的特徵的模型。此方法引起了廣泛興趣,除了計算機視覺用途外,還應用於太赫茲成像,並有望在與半機械化頭像和人類協作相關技術的基礎方面發揮關鍵作用。在未來,這將成為一個重要的研究方向,並為我們帶來新的技術革命。
延伸閱讀
- 加州新 AI 法案出爐,SB 1047 作者再推出改革措施!
- 《超級瑪利歐成為 AI 基準測試的新標準!你絕對想不到的理由》
- Google 推出 SpeciesNet:專為識別野生動物而設的人工智慧模型!
- 安瑟普提克獲得 35 億美元巨額資金 瞄準人工智慧未來!
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- 探索 DeepSeek:你必須理解的 AI 聊天機器人應用全指南!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 未來科技:研究人員揭示如何打造變形機器人,猶如 T-1000 般神奇!
- ElevenLabs 推出全新語音轉文字模型,引領 AI 語音技術的新潮流!