
Meta AI 推出全新多模態 AI 模型 CM3leon
概要
Meta AI(前稱 Facebook)持續推動其對新形式生成式人工智慧模型的研究,今天揭示了其最新努力,名為 CM3leon(發音類似「chameleon」)。CM3leon 是一個文字到影象創作的多模態基礎模型,同時也可用於影象到文字創作,可用於自動生成影象的標題。AI 生成的影象在當前已不是新概念,廣受歡迎的工具如 Stable Diffusion、DALL-E 和 Midjourney 已經廣泛可用。而 Meta 使用構建 CM3leon 的技術和 Meta 宣稱的基礎模型表現,則是新的地方。
技術內容
如今文字到影象生成技術主要依賴擴散模型(Stable Diffusion 名稱即來自此)來建立影象。CM3leon 則採用了一個不同的方法:基於標記的自回歸模型。Meta 研究在一篇名為《擴充套件自回歸多模態模型:預訓練和指導微調》的研究論文中寫道,「擴散模型近年來在影象生成領域主導,由於其強大的效能和相對較低的計算成本。相比之下,基於標記的自回歸模型已被證實也能產生強大結果,尤其在全域性影象一致性方面更勝一籌,但其訓練和推理成本更高。」Meta 研究人員展示了他們使用 CM3leon 所達到的成果,實際上證實了相對於擴散模型方法,基於標記的自回歸模型能更加高效。
倫理考量
CM3leon 的基本架構與現有的文字生成模型相似。Meta 研究人員首先進行了一個檢索增強的預訓練階段。Meta 並未僅僅從網際網路上的公開影象中獲取資料,這種方法對於擴散模型而言已引起了一些法律挑戰。Research paper 中寫道:「在文字到影象生成的領域中,從影象資料來源的倫理問題一直是一個相當有爭議的話題。」Research paper 中提到:「在這項研究中,我們只使用來自 Shutterstock 的授權影象。這樣,我們可以避免與影象所有權和歸屬有關的問題,同時不影響效能。」
超級有最佳化的模型
在預訓練之後,CM3leon 模型經歷了一個監督式微調(SFT)階段,Meta 研究人員聲稱這個階段會產生高度最佳化的結果,包括資源利用率和影象質量。監督式微調(SFT)是 OpenAI 用於 ChatGPT 模型的一種方法。Meta 在研究論文中指出,監督式微調被用於訓練模型來理解複雜提示,這對於生成任務非常有用。在 Meta 的研究論文中,他們指出:「我們發現指導微調顯著提升了多模態模型在影象標題生成、影象問答、基於文字的編輯和條件影象生成等各種任務上的效能。」從 Meta 在有關 CM3leon 的部落格文章中分享的生成影象樣本集來看,結果令人印象深刻,清楚展示了該模型理解複雜的多階段提示,並因此生成了極高解析度的影象。
將來發展
當前 CM3leon 還只是一項研究工作,不清楚 Meta 是否會將這項技術公開在其平臺之一的服務中。鑑於其強大的能力和更高的生成效率,CMleon 及其生成式人工智慧方法很可能會超越僅僅研究,成為一個實用的應用。VentureBeat 的使命是成為技術決策者獲取企業變革技術知識和進行交易的數位廣場。
關鍵字:人工智慧、技術、效率、Meta、AI、影象生成模型、CM3leon、高效率
延伸閱讀
- OpenAI 的創意寫作 AI 讓人想起高中文學社那個討人厭的孩子
- 亞馬遜成立新型代理 AI 團隊,將如何改變科技未來?
- 「搶先報名!TechCrunch Sessions: AI 演講者申請截止日期迫在眉睫!」
- MWC 最新報導:AI 影響力的兩極化觀點首次曝光!
- 亞馬遜新推出 Alexa+:為孩子們帶來 AI 驅動的「探索」與「故事」新功能!
- Bridgetown Research 載著 AI 助力,成功募資 1900 萬美元加速盡職調查!
- Nomagic 獲得 4400 萬美元資金,AI 驅動的機器手臂技術將改變未來!
- 全方位理解 Anthropic 的 AI:揭開 Claude 的神祕面紗!
- 微軟刪除 AI 資料中心租賃,背後原因何在?
- Perfect 獲得 2300 萬美元資金,運用 AI 革新招聘流程!