
新方法:地圖增密提高視覺辨識的精度
視覺地點辨識(VPR)是一個由電腦科學家開發出來的影象識別技術,可以識別影象的拍攝位置。為了提高 VPR 的精度,德爾夫特技術大學的研究人員最近提出了一種新方法。
連續場所描述符回歸(CoPR):一種新模型
在 IEEE Transactions on Robotics 的一篇論文中,該團隊提出的方法基於一種稱為連續場所描述符回歸(CoPR)的新模型。CoPR 不需要對 VPR 模型進行任何設計修改,只需利用深度學習模型將其“地圖”中的描述符增密,並利用該新方法增加 VPR 的精度,同時也提高了其應用範圍與具體實踐。
面對存在的困境:感知模糊問題
該團隊提出這種方法的動機在於反思 VPR 效能的瓶頸以及相關的視覺定位方法的困難。首先他們關注了“感知模糊”問題,即:外觀相似的不同地方。例如,如果我們在高速公路的右側車道上拍攝參考影象,然後在同一條高速公路的左側車道駕駛,最精確的定位估計是匹配此前收集的參考影象。然而影象的視覺內容可能會錯誤地匹配到另一個在左側車道收集參考影象的高速公路區段。
解決方案:增加密度
該團隊的解決方案是利用深度學習模型將所有參考對映為一個連續函數的點,該連續函數將姿勢與描述符聯動起來。然後透過使用經過訓練的插值和外推函數來回歸未見過的姿勢的描述符。最終該團隊能夠利用新方法增加 VPR 模型的參考,增加了匹配查詢影象的參考。這種方法需要相對較少的計算能力,而且不需要對 VPR 模型進行任何設計修改,因此具有使用方便性。他們的研究還指出,相對的姿勢估計可以透過拓展給定的參考點而達到更高的準確度,這對於增加場地規模十分有幫助。
結論
該團隊在實驗中表現出色,顯示其新方法的應用價值,也表明基於同樣的連續空間表示的 SLAM 和相對姿勢估算技術能夠擴充套件到僅由 VPR 模型操作。該方法將有助於人工智慧在未來在靠近真實情境下提升視覺辨識精度。