網路議題

MIT 的統一影像生成和識別系統 MAGE 解析

新的 AI 系統 MAGE 結合影像生成和識別 MAGE（Masked Generative Encoder）是由麻省理工學院（MIT）電腦科學和人工智慧實驗室（CSAIL）的研究人員發表的統一影像生成和識別系統。這個系統很有潛力應用在許多領域，但也還需要進一步的完善。MAGE 如何執行？MAGE 的 .... (往下繼續閱讀)

by 江塵
2023/6/22
5 分鐘閱讀時間

A- A A+

文章目錄

新的 AI 系統 MAGE 結合影像生成和識別

MAGE（Masked Generative Encoder）是由麻省理工學院（MIT）電腦科學和人工智慧實驗室（CSAIL）的研究人員發表的統一影像生成和識別系統。這個系統很有潛力應用在許多領域，但也還需要進一步的完善。

MAGE 如何執行？

MAGE 的開發過程中，團隊使用了一種稱為 masked token modeling 的預訓練方法。他們將影像資料的部分轉換成由語義標記表示的抽象版本。每個語義標記代表原始影像的一個 16×16 標記塊，就像是迷你拼圖。一些標記會被隨機遮蔽，然後神經網路會透過周圍標記的上下文來預測被遮蔽的標記。這樣，系統就能學會理解影像的模式（影像識別），同時還能生成新的影像（影像生成）。

MAGE 的應用潛力

當 MAGE 在 ImageNet 影像資料庫的資料進行預訓練時，獲得了通用前克分析距離得分為 9.1（用於評估影像質量），超過了以前的模型。在識別方面，當每個類別僅有 10 個標記的例子時，MAGE 線上性推斷中獲得了 80.9％的準確率和 71.9％的 10-shot 準確率。該模型的影像理解能力在只有有限標記資料可用的情況下，如在利基行業或新興技術中，將非常有益。

除了從頭開始生成影像，這個系統還支援有條件的影像生成，使用者可以為影像制定標準，系統將生成相應的影像。MAGE 的影像生成能力在照片編輯、視覺特效和後期製作等行業中也能發揮作用，它能在保持真實外觀的同時從影像中移除元素，或者根據特定類別替換元素。

MAGE 領域研究的一位參與者表示：“長久以來，實現影像生成和識別在一個系統中一直是夢想。MAGE 是一項具有突破性研究的成果，成功利用這兩個任務的協同作用，將它們融合到一個統一的系統中，同時達到了行業的最先進水平。”

MAGE 的潛在問題和未來發展

MAGE 系統當前還有一些缺陷，需要在接下來的幾個月內進一步完善，特別是在標記轉換部分。當前在影像資料轉換為標記時，會有一些訊息的丟失。研究團隊計劃透過其他的壓縮方式來改善這個問題。

此外研究團隊還打算將 MAGE 應用於真實世界的大規模未標記影像資料集，並將其應用於多模態任務，如影像到文字和文字到影像的生成。

總結

MAGE 是一個引人注目的統一影像生成和識別系統，它具有許多應用潛力。當前，企業正在全力投入 AI 技術，特別是生成技術，以改善工作流程。然而 MAGE 系統還需要進一步的改進和完善，以實現可能的應用。對於那些在利基行業或新興技術中擁有有限標記資料的人來說 MAGE 的影像理解能力將非常有價值。

Artificial intelligence-MIT,統一影像生成,識別系統,MAGE

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集

MIT 的統一影像生成和識別系統 MAGE 解析

文章目錄

新的 AI 系統 MAGE 結合影像生成和識別

MAGE 如何執行？

MAGE 的應用潛力

MAGE 的潛在問題和未來發展

總結

延伸閱讀

採用機器學習的基於草圖的物體偵測工具，有望提升腫瘤檢測

Reddit 稱抗議時社群進入 NSFW 非接受範疇屬於「不可接受行為」

江塵