Meta AI 推出全新多模態 AI 模型 CM3leon
概要
Meta AI(前稱 Facebook)持續推動其對新形式生成式人工智慧模型的研究,今天揭示了其最新努力,名為 CM3leon(發音類似「chameleon」)。CM3leon 是一個文字到影象創作的多模態基礎模型,同時也可用於影象到文字創作,可用於自動生成影象的標題。AI 生成的影象在當前已不是新概念,廣受歡迎的工具如 Stable Diffusion、DALL-E 和 Midjourney 已經廣泛可用。而 Meta 使用構建 CM3leon 的技術和 Meta 宣稱的基礎模型表現,則是新的地方。技術內容
如今文字到影象生成技術主要依賴擴散模型(Stable Diffusion 名稱即來自此)來建立影象。CM3leon 則採用了一個不同的方法:基於標記的自回歸模型。Meta 研究在一篇名為《擴充套件自回歸多模態模型:預訓練和指導微調》的研究論文中寫道,「擴散模型近年來在影象生成領域主導,由於其強大的效能和相對較低的計算成本。相比之下,基於標記的自回歸模型已被證實也能產生強大結果,尤其在全域性影象一致性方面更勝一籌,但其訓練和推理成本更高。」Meta 研究人員展示了他們使用 CM3leon 所達到的成果,實際上證實了相對於擴散模型方法,基於標記的自回歸模型能更加高效。倫理考量
CM3leon 的基本架構與現有的文字生成模型相似。Meta 研究人員首先進行了一個檢索增強的預訓練階段。Meta 並未僅僅從網際網路上的公開影象中獲取資料,這種方法對於擴散模型而言已引起了一些法律挑戰。Research paper 中寫道:「在文字到影象生成的領域中,從影象資料來源的倫理問題一直是一個相當有爭議的話題。」Research paper 中提到:「在這項研究中,我們只使用來自 Shutterstock 的授權影象。這樣,我們可以避免與影象所有權和歸屬有關的問題,同時不影響效能。」超級有最佳化的模型
在預訓練之後,CM3leon 模型經歷了一個監督式微調(SFT)階段,Meta 研究人員聲稱這個階段會產生高度最佳化的結果,包括資源利用率和影象質量。監督式微調(SFT)是 OpenAI 用於 ChatGPT 模型的一種方法。Meta 在研究論文中指出,監督式微調被用於訓練模型來理解複雜提示,這對於生成任務非常有用。在 Meta 的研究論文中,他們指出:「我們發現指導微調顯著提升了多模態模型在影象標題生成、影象問答、基於文字的編輯和條件影象生成等各種任務上的效能。」從 Meta 在有關 CM3leon 的部落格文章中分享的生成影象樣本集來看,結果令人印象深刻,清楚展示了該模型理解複雜的多階段提示,並因此生成了極高解析度的影象。將來發展
當前 CM3leon 還只是一項研究工作,不清楚 Meta 是否會將這項技術公開在其平臺之一的服務中。鑑於其強大的能力和更高的生成效率,CMleon 及其生成式人工智慧方法很可能會超越僅僅研究,成為一個實用的應用。VentureBeat 的使命是成為技術決策者獲取企業變革技術知識和進行交易的數位廣場。 關鍵字:人工智慧、技術、效率、Meta、AI、影象生成模型、CM3leon、高效率AI,technology,efficiency-Meta,AI,影象生成模型,CM3leon,高效率
延伸閱讀
- Y Combinator 幫助醫療記錄 AI 新創 Hona 募得 300 萬美元 的故事
- Pinterest AI 打造的拼貼圖比單張針腳更吸睛
- Atlassian 推出新的 AI 同事 Rovo
- 三星的營運利潤飆升 930%,AI 動能帶動記憶晶片需求
- Meta 在歐盟調查 Facebook 和 Instagram 的背景下應對選舉安全
- GitHub 推出 Copilot Workspace:AI 驅動的軟體工程空間
- Meta 宣布為 Threads 上的創作者推出獎勵計劃
- 「馬斯克的 xAI 示範 AI 新創公司的龐大市場潛力」
- 照片分享社群 EyeEm 將許可使用者的照片以訓練 AI,如果使用者不刪除照片
- 為何 Meta 看好 fediverse 作為社交媒體的未來