深度學習和傳統元素:電腦視覺中的進步和挑戰
引言
電腦視覺(Computer Vision,CV)在過去幾年中迅速發展,現在已經滲透到我們日常生活的許多領域。對一般人而言,它可能看起來像是一個新的、令人興奮的創新,但事實並非如此。實際上 CV 的演進已經數十年了,20 世紀 70 年代的研究為當今使用的許多算法奠定了早期基礎。然後,在大約 10 年前,一種新的、尚處於理論發展階段的技術出現了:深度學習,一種利用神經網路解決極其複雜問題的人工智慧形式——假如你有足夠的資料和計算能力。隨著深度學習的不斷發展,它可以很好地解決特定的 CV 問題。物體檢測和分類等挑戰尤其適合深度學習的應用。於是,「傳統」CV 和基於深度學習的 CV 之間開始出現了區別。深度學習並沒有取代傳統 CV;兩者都在不斷發展,為我們揭示使用大資料解決哪些挑戰以及應該繼續使用數學和幾何算法解決哪些問題。深度學習改變物體檢測
深度學習,特別是卷積神經網路(Convolutional Neural Networks,CNNs)和基於區域的 CNN(Region-Based CNNs,R-CNNs),已經改變了物體檢測,尤其是當它與 Google 和 Amazon 等巨頭公司的大型標記影象資料庫結合時。透過訓練良好的神經網路,不再需要明確的、手工製作的規則,算法能夠在很多不同的情況下檢測物體,無論其角度如何。在特徵提取方面,深度學習過程只需要一個優秀的算法和多樣化的訓練資料,以避免過度擬合模型,並在模型投產後對新資料達到足夠的準確性。CNNs 對此任務尤為出色。此外當將深度學習應用於語義分割時,U-net 架構表現出卓越效能,消除了複雜的手動過程。回歸傳統元素
盡管深度學習無疑在 CV 領域引起了革命,但在同時定位和建圖(Simultaneous Localization and Mapping,SLAM)以及運動結構(Structure from Motion,SFM)算法所解決的特定挑戰中,傳統 CV 解決方案仍然優於新方法。這些概念都涉及使用影象來理解和對映物理區域的尺寸。SLAM 的重點是構建並更新一個區域的地圖,同時保持代理物體(通常是某種型別的機器人)以及其在地圖中的位置。正是這樣,自主駕駛和機器人吸塵器等技術才成為可能。SFM 同樣依賴先進的數學和幾何知識,但其目標是透過多個檢視的 3D 重建來建立一個物體的表示可以從無序的一組影象中捕獲。當不需要實時、即時的反應時,這種方法是合適的。最初,人們認為進行 SLAM 需要大量的計算能力。然而透過使用近似值,CV 先驅們能夠使計算需求變得更易管理。而 SFM 更為簡單:與 SLAM 通常涉及感測器融合不同,該方法僅利用相機的內在特性和影象的特徵。與鐳射掃描相比,這是一種成本效益較高的方法,因為在許多情況下,鐳射掃描由於範圍和解析度的約束甚至無法執行。其結果是一個可靠而準確的物體表示。未來之路
雖然深度學習無法像傳統 CV 那樣解決某些問題,但工程師們應該繼續使用傳統技術來解決這些問題。當涉及到複雜的數學和直接觀察以及難以獲取適當的訓練資料集時,深度學習過於強大且難以生成優雅的解決方案。這裡可以引出“公牛闖茶店”的類比:正如 ChatGPT 絕對不是進行基本算術的最高效(或準確)工具一樣,傳統 CV 將繼續主導特定挑戰。從傳統 CV 到基於深度學習的 CV 的部分轉變給我們帶來了兩個主要啟示。首先我們必須承認,整體取代舊有技術的方式雖然更簡單,但是是錯誤的。當一個領域被新技術所影響時,我們必須小心地關注細節,並根據具體情況確保哪些問題將受益於新技術,哪些問題仍然更適合舊有的方法。其次儘管轉變開展出可擴充套件性的前景,但其中也帶有一絲苦澀之感。傳統方法確實更加手工,但這意味著在其中也同時凝聚了藝術和科學的精神。當發掘特徵、物體、邊緣和關鍵元素方面需要創意和創新時,並非由深度學習所提供的能力,而是由深思熟慮所創造。隨著遠離傳統 CV 技術,像我這樣的工程師有時會更像 CV 工具的整合者。儘管這對於行業來說是“好事”,但不得不放棄角色中更富有藝術和創造性的元素仍然令人感到遺憾。未來的一個挑戰是在其他方式中試圖將這種藝術性融入其中。理解代替學習
在接下來的十年中,我預測「理解」將最終取代「學習」成為網路開發的主要關注點。重點不再是網路能學到多少,而是它能多深入地理解訊息以及我們如何在不過度使用資料的情況下促使它進行這種理解。我們的目標應該是使網路能夠在最小幹預的情況下達到更深入的結論。接下來的十年肯定會在 CV 領域帶來一些驚喜。也許傳統 CV 最終會被淘汰。也許深度學習也會被一種尚未聞名的技術取代。然而至少當前來看,這些工具是處理特定任務的最佳選擇,並將在未來十年 CV 的進步中形成基礎。不管怎樣,這將是一個令人刺激的旅程。(本文由 Shlomi Amitai 撰寫,Shopic 的算法團隊負責人)
"Evolution"-深度學習,電腦視覺,傳統元素
延伸閱讀
- 深度學習技術進步!Meta 推出廣告 AI 工具,能創造全新影象而非僅替換背景
- Google Deepmind 推出巨大的 AlphaFold 更新和免費蛋白質組學服務網路應用程式
- 為什麼 RAG 無法解決生成式 AI 的幻覺問題
- 比利時電腦視覺新創公司 Robovision 著眼於擴充套件至美國以應對勞動力短缺
- OpenAI 擴大自定義模型訓練計劃
- OpenAI 的聊天機器人商店充斥垃圾訊息
- Google Deepmind 培訓影片遊戲 AI 成為你的合作夥伴
- Deepgram 推出 Aura:賦予 AI 代理人聲音
- 聚焦 SambaNova:現在提供一攬子生成式人工智慧模型
- OpenAI 最新模型能生成影片,而且看起來還不錯