網路議題

MIT 的統一影像生成和識別系統 MAGE 解析

新的 AI 系統 MAGE 結合影像生成和識別 MAGE(Masked Generative Encoder)是由麻省理工學院(MIT)電腦科學和人工智慧實驗室(CSAIL)的研究人員發表的統一影像生成和識別系統。這個系統很有潛力應用在許多領域,但也還需要進一步的完善。MAGE 如何執行?MAGE 的 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

MIT 的統一影像生成和識別系統 MAGE 解析

新的 AI 系統 MAGE 結合影像生成和識別

MAGE(Masked Generative Encoder)是由麻省理工學院(MIT)電腦科學和人工智慧實驗室(CSAIL)的研究人員發表的統一影像生成識別系統。這個系統很有潛力應用在許多領域,但也還需要進一步的完善。

MAGE 如何執行?

MAGE 的開發過程中,團隊使用了一種稱為 masked token modeling 的預訓練方法。他們將影像資料的部分轉換成由語義標記表示的抽象版本。每個語義標記代表原始影像的一個 16×16 標記塊,就像是迷你拼圖。一些標記會被隨機遮蔽,然後神經網路會透過周圍標記的上下文來預測被遮蔽的標記。這樣,系統就能學會理解影像的模式(影像識別),同時還能生成新的影像(影像生成)。

MAGE 的應用潛力

MAGE 在 ImageNet 影像資料庫的資料進行預訓練時,獲得了通用前克分析距離得分為 9.1(用於評估影像質量),超過了以前的模型。在識別方面,當每個類別僅有 10 個標記的例子時,MAGE 線上性推斷中獲得了 80.9%的準確率和 71.9%的 10-shot 準確率。該模型的影像理解能力在只有有限標記資料可用的情況下,如在利基行業或新興技術中,將非常有益。

除了從頭開始生成影像,這個系統還支援有條件的影像生成,使用者可以為影像制定標準,系統將生成相應的影像。MAGE 的影像生成能力在照片編輯、視覺特效和後期製作等行業中也能發揮作用,它能在保持真實外觀的同時從影像中移除元素,或者根據特定類別替換元素。

MAGE 領域研究的一位參與者表示:“長久以來,實現影像生成和識別在一個系統中一直是夢想。MAGE 是一項具有突破性研究的成果,成功利用這兩個任務的協同作用,將它們融合到一個統一的系統中,同時達到了行業的最先進水平。”

MAGE 的潛在問題和未來發展

MAGE 系統當前還有一些缺陷,需要在接下來的幾個月內進一步完善,特別是在標記轉換部分。當前在影像資料轉換為標記時,會有一些訊息的丟失。研究團隊計劃透過其他的壓縮方式來改善這個問題。

此外研究團隊還打算將 MAGE 應用於真實世界的大規模未標記影像資料集,並將其應用於多模態任務,如影像到文字和文字到影像的生成。

總結

MAGE 是一個引人注目的統一影像生成識別系統,它具有許多應用潛力。當前,企業正在全力投入 AI 技術,特別是生成技術,以改善工作流程。然而 MAGE 系統還需要進一步的改進和完善,以實現可能的應用。對於那些在利基行業或新興技術中擁有有限標記資料的人來說 MAGE 的影像理解能力將非常有價值。

Artificial intelligence-MIT,統一影像生成,識別系統,MAGE
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。