
新的 AI 系統 MAGE 結合影像生成和識別
MAGE(Masked Generative Encoder)是由麻省理工學院(MIT)電腦科學和人工智慧實驗室(CSAIL)的研究人員發表的統一影像生成和識別系統。這個系統很有潛力應用在許多領域,但也還需要進一步的完善。
MAGE 如何執行?
MAGE 的開發過程中,團隊使用了一種稱為 masked token modeling 的預訓練方法。他們將影像資料的部分轉換成由語義標記表示的抽象版本。每個語義標記代表原始影像的一個 16×16 標記塊,就像是迷你拼圖。一些標記會被隨機遮蔽,然後神經網路會透過周圍標記的上下文來預測被遮蔽的標記。這樣,系統就能學會理解影像的模式(影像識別),同時還能生成新的影像(影像生成)。
MAGE 的應用潛力
當 MAGE 在 ImageNet 影像資料庫的資料進行預訓練時,獲得了通用前克分析距離得分為 9.1(用於評估影像質量),超過了以前的模型。在識別方面,當每個類別僅有 10 個標記的例子時,MAGE 線上性推斷中獲得了 80.9%的準確率和 71.9%的 10-shot 準確率。該模型的影像理解能力在只有有限標記資料可用的情況下,如在利基行業或新興技術中,將非常有益。
除了從頭開始生成影像,這個系統還支援有條件的影像生成,使用者可以為影像制定標準,系統將生成相應的影像。MAGE 的影像生成能力在照片編輯、視覺特效和後期製作等行業中也能發揮作用,它能在保持真實外觀的同時從影像中移除元素,或者根據特定類別替換元素。
MAGE 領域研究的一位參與者表示:“長久以來,實現影像生成和識別在一個系統中一直是夢想。MAGE 是一項具有突破性研究的成果,成功利用這兩個任務的協同作用,將它們融合到一個統一的系統中,同時達到了行業的最先進水平。”
MAGE 的潛在問題和未來發展
MAGE 系統當前還有一些缺陷,需要在接下來的幾個月內進一步完善,特別是在標記轉換部分。當前在影像資料轉換為標記時,會有一些訊息的丟失。研究團隊計劃透過其他的壓縮方式來改善這個問題。
此外研究團隊還打算將 MAGE 應用於真實世界的大規模未標記影像資料集,並將其應用於多模態任務,如影像到文字和文字到影像的生成。
總結
MAGE 是一個引人注目的統一影像生成和識別系統,它具有許多應用潛力。當前,企業正在全力投入 AI 技術,特別是生成技術,以改善工作流程。然而 MAGE 系統還需要進一步的改進和完善,以實現可能的應用。對於那些在利基行業或新興技術中擁有有限標記資料的人來說 MAGE 的影像理解能力將非常有價值。