
2023 年 6 月 26 日- 新的 AI 方法:從影象中繪製場景
編者註
這篇文章已按照 Science X 的編輯流程和政策進行了審查。編輯們在確保內容可信度的同時最佳化了以下幾個重點方面:核實事實的校對、同行評審的出版物、可信的來源以及校對過的內容。
臺灣揚溢楊常春教授開發出影象中繪製場景的新 AI 方法
由 University of Twente 的 MIT-研究員臺灣揚溢楊常春(Michael Ying Yang)領導的團隊最近在《IEEE Transactions on Pattern Analysis and Machine Intelligence》期刊上發表了一項突破性研究,闡述了一種從影象中繪製場景的創新方法。這一方法可以為生成逼真和連貫影象提供可靠藍圖。
在影象中,人們非常善於定義物體之間的關係。然而人工智慧模型在這方面仍然面臨著困難。楊教授解釋道:“我們可以看到一張椅子放在地板上,一隻狗跑在街上。但對於 AI 模型來說這種關係的解釋非常困難。”改善計算機對視覺關係的檢測和理解能力對於影象生成以及自主駕駛車輛和機器人的感知都非常重要。
從兩階段轉為單階段
當前已經存在可以描述影象的語義理解的方法,但速度較慢。這些方法使用兩階段的方式:首先它們對場景中的所有物體進行對映;然後,在第二個步驟中,某些特定的神經網路會對所有不同的可能存取進行遍歷,並對它們進行正確的標記。隨著物體數量的增加,這種方法需要遍歷的存取數量呈指數級增長。楊教授說:“我們的模型只需一步即可。它可以同時自動預測主題、物體以及它們之間的關係。”
檢測關係
對於這種單階段方法,模型會觀察場景中物體的視覺特徵,並專注於確保關係的最相關細節。它會突出顯示物體之間互動或相互聯動的重要區域。使用這些技術和相對較少的訓練資料,已足夠識別不同物體之間最重要的關係。只剩下描述它們如何相連的工作了。楊教授說:“對於一張示例圖片,模型會檢測到人與棒球棍非常可能存在互動。然後,它被訓練來描述最有可能的關係:'人揮舞著棒球棍'。”
這項研究開創了 AI 影象生成領域的新局面。這種方法不僅可以為場景生成影象提供更好的藍圖,也可能在自主駕駛車輛和機器人的感知和理解方面起到重要作用。楊教授表示希望該研究能激發更多基於視覺關係的 AI 技術的探索和應用,從而實現更加智慧化的計算機視覺系統。
參考資料
Yuren Cong 等人,《Relation Transformer for Scene Graph Generation》,《IEEE Transactions on Pattern Analysis and Machine Intelligence》(2023)。DOI: 10.1109/TPAMI.2023.3268066
本文轉自 University of Twente 提供的資料《New AI method for graphing scenes from images》,於 2023 年 6 月 26 日取自技術探討網站 https://techxplore.com/news/2023-06-ai-method-graphing-scenes-images.html
關鍵詞
- Unsplash 畫廊
- 人工智慧處理影象
- 場景描繪
- 人工智慧技術
- 影象識別
- 機器學習
延伸閱讀
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 全方位理解 Anthropic 的 AI:揭開 Claude 的神祕面紗!
- 探索 Microsoft Copilot:你必須知道的 AI 技術全解析!
- 「MLCommons 與 Hugging Face 聯手推出龐大語音資料集,助力 AI 研究新境界!」
- 深度探索聲稱其推理模型在特定基準測試中超越 OpenAI 的 o1!
- 《徹底解析 ChatGPT:你必須知道的 AI 聊天機器人一切!》
- OpenAI AI 推理模型竟然會「用中文思考」,背後原因成謎!
- 探索 ChatGPT:你所需理解的一切關於這款 AI 聊天機器人!
- Nvidia 攜手 Apple Vision Pro,助推人型機器人學習新境界!
- 「DeepSeek 最新 AI 模型為何自認是 ChatGPT?揭祕背後的技術奧妙!」