網路議題

Meta 聲稱其全新藝術生成模型是業界最頂尖的

Meta 宣稱其新的藝術生成模型是業界最頂尖引言在過去的兩年裡,得益於技術的普及和技術壁壘的降低,AI 動力影象生成器已經變得普及化。幾乎所有主要的技術公司,包括 Google 和 Microsoft 以及無數的初創企業都已經部署了這些影象生成器,以爭取越來越有利可圖的生成式 AI 市場的份額。儘管 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

Meta 聲稱其全新藝術生成模型是業界最頂尖的

Meta 宣稱其新的藝術生成模型業界最頂尖

引言

在過去的兩年裡,得益於技術的普及和技術壁壘的降低,AI 動力影象生成器已經變得普及化。幾乎所有主要的技術公司,包括 Google 和 Microsoft 以及無數的初創企業都已經部署了這些影象生成器,以爭取越來越有利可圖的生成式 AI 市場的份額。儘管影象生成器的質量有所提高,但這種進展是漸進的,有時進展障礙重重。然而 Meta 宣稱他們取得了突破。他們宣布推出 CM3leon(在滑稽的 leetspeak 語言中為"chameleon"),一個 AI 模型,該公司聲稱實現了文字到影象生成的最先進效能。根據 Meta 的說法,CM3leon 還是少數能夠為影象生成生成標題的模型之一,為未來更強大的影象理解模型奠定了基礎。 Meta 在本週稍早與 TechCrunch 分享的一篇部落格文章中寫道:“CM3leon 的功能使影象生成工具能夠產生更連貫的影象,更好地遵循輸入提示。我們相信 CM3leon 在各種任務上的出色表現是邁向更高保真度影象生成和理解的一個步驟。”

CM3leon 的技術優勢

大多數現代影象生成器,包括 OpenAI 的 DALL-E 2、Google 的 Imagen 和 Stable Diffusion,都依賴一個稱為“擴散”的過程來創造藝術。在擴散中,模型學習如何逐步從完全由噪聲組成的起始影象中減去噪聲,一步一步地將其移向目標提示。這種結果令人印象深刻。但擴散具有計算密集性,使其難以執行並且速度很慢,以至於大多數實時應用是不實際的。相比之下,CM3leon 是一個轉換器模型,利用一種被稱為“注意力”的機制來衡量輸入資料(如文字或影象)的相關性。注意力和轉換器的其他架構特點可以增加模型的訓練速度並使模型更容易並行化。換句話說,可以以顯著但不過高的計算量來訓練越來越大的轉換器。而且 Meta 聲稱,CM3leon 比大多數轉換器更高效,只需要五分之一的計算量和比以前基於轉換器的方法更小的訓練資料集。有趣的是,OpenAI 幾年前曾經探索過使用轉換器生成影象的方法,名為 Image GPT,但最終放棄了這個想法,轉而使用擴散方法,而現在可能轉向其他方法。為了訓練 CM3leon,Meta 使用了來自 Shutterstock 的數百萬張授權影象的資料集。Meta 建立的幾個版本中最強大的 CM3leon 擁有 70 億個引數,是 DALL-E 2 的兩倍多。引數是模型從訓練資料中學習到的部分,本質上定義了模型在一個問題上的技能,例如生成文字或影象。 CM3leon 更強大的效能的一個關鍵在於一種被稱為監督微調(Supervised Fine-Tuning,SFT)的技術。SFT 已經被用於訓練文字生成模型,例如 OpenAI 的 ChatGPT,在此案例中,Meta 推斷這種方法也可以應用於影象領域。事實上指導微調不僅在影象生成上提高了 CM3leon 的效能,還在影象標題編寫上提高了效能,使其能夠透過遵循文字指導來回答關於影象的問題和編輯影象(例如“將天空的顏色變成亮藍色”)。大多數影象生成器在處理"復雜"物件和包含太多約束的文字提示時都遇到困難,但 CM3Leon 則不然,至少不常見。在一些精心挑選的例子中,Meta 讓 CM3Leon 使用提示生成影象,如“一株在撒哈拉沙漠戴著稻草帽和霓虹太陽鏡的小仙人掌”,“一張人手的特寫照片,手模特” ,“在日本動畫中準備與武士刀進行史詩般戰鬥的主要角色浣熊”和“一個帶有文字“1991”的幻想風格的停止標誌”。為了進行比較,我使用 DALL-E 2 執行了同樣的提示。一些結果非常相似,但我覺得 CM3Leon 的影象通常更接近輸入提示並且更加細緻,特別是在標誌等方面。(直到最近,擴散模型對文字和人體解剖學兩方面都處理得相對較差。)

CM3leon 的優勢和應用

CM3leon 還能理解編輯現有影象的指令。例如,給定提示“生成一張有水槽和鏡子的高品質影象,瓶子位於位置(199, 130)”,該模型可以生成一些在視覺上相關且"涉及內容"(就像房間、水槽、鏡子、瓶子等)的影象。 DALL-E 2 在理解這樣的提示的微妙之處方面完全失敗了,有時會完全省略提示中指定的物件。當然與 DALL-E 2 不同,CM3leon 可以根據各種提示生成短或長的標題並回答有關特定影象的問題。在這些方面,該模型表現得比專門的影象標題模型(如 Flamingo 和 OpenFlamingo)更好,儘管它在訓練資料中看到的文字較少。然而關於偏見呢?和 DALL-E 2 一樣,生成式 AI 模型也被發現會強化社會偏見,例如生成大多數是白人男性的“CEO”或“總監”等權威職位的影象。Meta 沒有回答這個問題,只是說 CM3leon“可能反映訓練資料中存在的任何偏見。”該公司寫道:“隨著 AI 行業的不斷發展,像 CM3leon 這樣的生成模型變得越來越精密。儘管行業在理解和解決這些挑戰方面仍處於早期階段,但我們相信透明度將是加快進展的關鍵。”Meta 未提及是否或何時計劃發布 CM3leon。考慮到關於開源藝術生成器的爭議,我不抱太大希望。

結論和建議

Meta 宣稱其新的藝術生成模型 CM3leon 是業界最頂尖。該模型透過使用轉換器和監督微調等技術,具有更高的訓練速度和更好的生成影象的能力。CM3leon 能夠生成更接近提示並更詳細的影象,並具有更好的理解提示並回答相關問題的能力。然而這種生成式 AI 模型仍然存在偏見的風險,而這一點 Meta 並未詳細解釋。未來,該領域需要更多的透明度和努力來解決和糾正這些問題。總的來說 CM3leon 為影象生成和理解領域帶來了新的發展,但我們需要謹慎應對其潛在的風險,並確保在推進技術發展的同時保護個人和社會利益。
ArtificialIntelligence-Meta,藝術生成模型,業界最頂尖

延伸閱讀

程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。