網路議題

計算機視覺系統結合影象識別與生成的激情婚禮

計算機視覺系統：影象識別與生成的完美結合作者：Rachel Gordon（麻省理工學院）報導日期：2023 年 6 月 28 日簡介由麻省理工學院（MIT）和 Google 的研究人員共同開發的一種統一視覺系統名為「Msked Generative Encoder（MAGE）」，可以在許多方面發揮作 .... (往下繼續閱讀)

by 程宇肖
2023/6/29
10 分鐘閱讀時間

A- A A+

文章目錄

計算機視覺系統：影象識別與生成的完美結合

作者：Rachel Gordon（麻省理工學院）

報導日期：2023 年 6 月 28 日

簡介

由麻省理工學院（MIT）和 Google 的研究人員共同開發的一種統一視覺系統名為「Msked Generative Encoder（MAGE）」，可以在許多方面發揮作用，如在影象中尋找和分類物體、僅以少數示例進行學習、生成具有特定條件（如文字或類別）的影象、編輯現有影象等。

哲學討論：影象識別與生成的結合

過去，計算機在影象處理方面有兩個獨立的能力：識別影象和生成新的影象。這些功能在一個系統中的結合，就好像是一個廚師既擅長烹飪（生成），又擅長品味食物（識別）。然而讓人不禁想問：如何在這兩個獨特能力之間實現和諧的結合？

廚師和品鑒家在對食物的味道上有共同的理解。同樣地，一個統一的視覺系統需要對視覺世界有深刻的理解。

麻省理工學院的電腦科學和人工智慧實驗室（CSAIL）的研究人員成功訓練了一個系統來推斷影象的缺失部分，這需要對影象的內容有深入的理解。透過成功填補空白，這個名為「Masked Generative Encoder（MAGE）」的系統同時實現了兩個目標：準確識別影象和建立與現實之間具有驚人相似度的新影象。

這種雙重功能的系統可以應用於許多領域，如影象中的物件識別和分類、僅使用少數示例進行快速學習、根據特定條件生成影象（如文字或類別）、增強現有影象等。

技術細節：從畫素到語義標記

與其他技術不同，MAGE 不使用原始畫素。它將影象轉換為所謂的「語義標記」，這是影象部分的緊湊而抽象化的版本。可以將這些標記想像成迷你拼圖塊，每個塊代表原始影象的 16x16 區域。就像詞語組成句子一樣，這些標記創造了一個影象的抽象版本，可用於複雜的處理任務，同時保留原始影象中的訊息。這種標記化步驟可以在自我監督的框架下進行訓練，使其能夠在大型影象資料集上進行無標記的預訓練。

MAGE 開始進行「遮罩標記建模」時，魔法就開始了。它隨機隱藏其中一些標記，建立一個不完整的拼圖，然後訓練一個神經網路來填補空缺。透過這種方式，它學會了理解影象的模式（影象識別）和生成新的模式（影象生成）。

MAGE 的一個顯著特點是在預訓練期間使用可變的遮罩策略，使其能夠在同一系統中對影象生成或識別進行訓練。研究人員表示 MAGE 在「標記空間」而不是「畫素空間」上工作，因此能夠生成清晰、細節豐富且高質量的影象以及具有語義豐富的影象表徵。這有望為先進且整合的計算機視覺模型鋪平道路。

應用與展望

除了能夠從頭開始生成逼真的影象外，MAGE 還可以進行條件影象生成。使用者可以指定他們希望 MAGE 生成的影象的某些條件，該工具將生成相應的影象。它還可以進行影象編輯任務，如在保持逼真外觀的同時刪除影象的某些元素。

識別任務也是 MAGE 的一個強項。它能夠在大型無標記資料集上進行預訓練，僅使用已學習的表示來分類影象。此外它在少數示例學習方面表現優異，在 ImageNet 等大型影象資料集上，僅使用每個類別的少數標記示例，就能達到令人印象深刻的結果。

MAGE 的效能取證表現令人印象深刻。一方面，在生成新影象方面，它創下了新的紀錄，比以往模型有顯著改進。另一方面，在識別任務中，MAGE 線上性探測方面達到了 80.9％的準確率，在 ImageNet 上的 10 個示例識別方面達到了 71.9％的準確率（這意味著在每個類別僅有 10 個標記示例的情況下，它能夠正確識別影象的 71.9％）。

儘管具有優勢，研究團隊承認 MAGE 還有待改進。將影象轉換為標記的過程不可避免地會導致一些訊息的損失。他們希望在未來的工作中探索如何在不丟失重要細節的情況下對影象進行壓縮。該團隊還打算在更大的資料集上測試 MAGE，未來的探索可能包括在更大的無標記資料集上訓練 MAGE，進一步提高效能。

Google 研究和機器智慧部門的高級軟體工程師 Huisheng Wang 評價 MAGE 的能力表示：“在一個系統中實現影象生成和影象識別一直以來都是一項夢想。MAGE 是一項具有突破性的研究工作，成功地將這兩個任務的協同作用發揮到了極致，達到了它們在單一系統中的最新水平。這個創新型系統具有廣泛的應用前景，有可能在計算機視覺領域激發許多未來的工作。”

這項研究結果已發表在 arXiv 預印版伺服器上。

結論與建議

MAGE 的出現為計算機視覺領域帶來了重大的突破。它不僅能精確識別影象，還能生成逼真的新影象。這使得它在許多應用領域中具有巨大的潛力，包括影象分類、影象生成、影象增強等。

然而研究團隊也承認 MAGE 仍然需要改進，特別是在影象訊息損失方面。這個問題的解決將使 MAGE 更加全面，甚至更接近人類對影象的感知和理解。

未來的研究可以進一步探索如何在更大的資料集上訓練 MAGE，以提高其效能。同時也可以將 MAGE 應用於更多領域，探索其在不同應用場景下的效果和潛在價值。

最後隨著計算機視覺技術的進一步發展，個人隱私和道德問題也變得更加重要。在利用 MAGE 進行影象生成和編輯的過程中，必須重視個人隱私和著作權保護，並建立合適的監管和法律機制來應對相關問題。

總之 MAGE 的問世改變了計算機處理影象的方式，並為未來的計算機視覺技術帶來了無限的可能性。我們期待著看到 MAGE 在實際應用中的表現和進一步改進，在不久的將來，這一技術可能成為我們日常生活中不可或缺的一部分。

Wedding-計算機視覺,影象識別,影象生成,激情婚禮

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集