新方法幫助人工智慧利用 2D 影像在 3D 空間中導航
摘要
研究人員開發出一種新的方法,可以幫助人工智慧從 2D 影像中提取 3D 訊息,使得攝像頭對於自動駕駛等新興技術成為更有用的工具。這種被稱為 MonoXiver 的新方法可以與現有技術配合使用,並且可以顯著提高其準確性。尤其對於自動駕駛等應用非常有用,因為攝像頭相對於其他測量距離的工具(如鐳射雷達)而言更便宜。由於攝像頭比其他技術更經濟實惠,自動駕駛車輛的設計者可以安裝多個攝像頭,為系統提供冗餘。然而這只有在自動駕駛車輛的人工智慧能夠從攝像頭拍攝的 2D 影像中提取 3D 導航訊息時才有用。這就是 MonoXiver 的作用。現有技術的不足
現有的從 2D 影像中提取 3D 資料的技術(如由 Wu 教授和合作者開發的 MonoCon 技術)使用的是“包框”(bounding boxes)的方法。具體而言,這些技術訓練人工智慧在 2D 影像中掃描並將 3D 包框放置在物體周圍,例如街道上的每輛車。這些框是立方體,有八個點,可以想像成鞋盒的角落。包框可以幫助人工智慧估計影像中物體的尺寸以及每個物體與其他物體的相對位置。換句話說,包框可以幫助人工智慧判斷一輛汽車有多大以及它在道路上與其他汽車的位置。然而現有程式的包框是不完美的,往往無法包含出現在 2D 影像中的一個物體的所有部分。MonoXiver 的工作原理
新的 MonoXiver 方法將每個包框作為起始點或錨點,讓人工智慧對每個包框周圍的區域進行第二次分析。這個第二次分析會產生許多額外的包框。為了確保這些次要包框中哪一個最好地捕捉到了物體的“遺失”部分,人工智慧進行了兩個比較。一個比較是檢視每個次要包框的“幾何”特徵,以檢視它是否包含與錨框中的形狀一致的形狀。另一個比較是檢視每個次要包框的“外觀”特徵,以檢視它是否包含與錨框內部相似的顏色或其他視覺特徵。效果測試與結果
研究人員使用了兩個 2D 影像資料集,即廣泛應用的 KITTI 資料集和更具挑戰性的大規模 Waymo 資料集,來測試 MonoXiver 方法的準確性。研究人員將 MonoXiver 方法與 MonoCon 以及其他兩個旨在從 2D 影像中提取 3D 資料的現有程式結合使用,結果顯示 MonoXiver 顯著提高了所有三個程式的效能,而 MonoXiver 與 MonoCon 結合使用時效能最佳。優點與展望
研究人員表示 MonoXiver 的使用對計算效能帶來較小的開銷。比如,單獨使用 MonoCon 的執行速度為每秒 55 幀,當將 MonoXiver 方法納入時,速度降至每秒 40 幀,這對於實際應用而言仍然足夠快。研究人員表示他們對這項工作感到興奮,並將繼續評估和最佳化它,以在自動駕駛等應用中使用。由於攝像頭更便宜且易於使用,MonoXiver 方法的應用前景非常廣闊。編輯評論
填補當前技術的不足
本研究可以填補當前從 2D 影像中提取 3D 訊息的技術的不足之處。傳統上,研究人員使用包框方法來估計 2D 影像中物體的尺寸和位置。然而由於包框的不完美性,這些技術往往無法包括物體的全部部分。本研究的 MonoXiver 方法透過在錨點周圍進行第二次分析,將幾何和外觀特徵用於比較,從而更準確地提取物體的 3D 訊息。推動自動駕駛等新興技術的發展
隨著自動駕駛等新興技術的不斷發展,攝像頭在這些應用中扮演著重要的角色。而本研究提出的 MonoXiver 方法可以使攝像頭更加有用,讓它們能夠在 2D 影像中提取 3D 訊息,從而更好地理解周圍環境。這對於自動駕駛系統來說至關重要,因為它們需要準確地感知和理解道路上的物體和障礙物。建議與展望
應用於其他領域
除了自動駕駛之外,MonoXiver 方法還可以應用於其他領域。例如,它可以幫助機器人在複雜的環境中進行導航,或者幫助監控系統檢測安全隱患。這種基於 2D 影像的 3D 導航方法具有廣泛的應用前景,可以透過進一步的研究和改進來實現。倫理和隱私問題
隨著這種技術的應用和普及,我們也需要關注倫理和隱私問題。儘管 MonoXiver 方法使攝像頭更強大和有用,但它也提高了從 2D 影像中提取個人和敏感訊息的風險。因此我們需要制定相應的監管措施和隱私保護機制,以平衡技術的發展和個人隱私的保護之間的關係。這需要共同努力,包括技術開發者、政府和學術界的參與。結論
MonoXiver 方法的開發為人工智慧從 2D 影像中提取 3D 訊息提供了一種有效的解決方案。它使攝像頭更具價值和應用前景,並促進了自動駕駛等新興技術的發展。然而我們也應該關注與技術應用相關的倫理和隱私問題,以確保科技的發展能夠符合社會的需要和期望。透過持續的研究和合作,我們可以進一步改善和最佳化 MonoXiver 方法,推動人工智慧和計算機視覺領域的發展。"Computervision"-AI 技術,影像處理,3D 空間探索,2D 影像分析,深度學習,電腦視覺
延伸閱讀
- 深度學習技術進步!Meta 推出廣告 AI 工具,能創造全新影象而非僅替換背景
- Google Deepmind 推出巨大的 AlphaFold 更新和免費蛋白質組學服務網路應用程式
- 人聲 vs AI:Audible 推出 AI 旁白有機會取代人類旁白嗎?
- 為什麼 RAG 無法解決生成式 AI 的幻覺問題
- CommentSold:AI 技術讓直播賣貨更加方便
- 比利時電腦視覺新創公司 Robovision 著眼於擴充套件至美國以應對勞動力短缺
- OpenAI 擴大自定義模型訓練計劃
- OctoAI 推出 OctoStack,讓私人 AI 模型部署更輕鬆
- OpenAI 的聊天機器人商店充斥垃圾訊息
- AI 動力對話機器人 ChatGPT:一切你需要知道的