網路議題

研究人員聲稱 Meta 公司的藝術生成模型是最佳的 方式

Meta 宣稱其新型藝術生成模型是最佳方式背景在過去兩年中,由人工智慧驅動的影象生成器已經變得普及化,這要歸功於技術的普遍可用性和降低的技術門檻。幾乎所有主要的科技公司,包括 Google 和微軟以及無數初創企業,都已部署了這些影象生成器,並努力爭奪越來越有利可圖的生成式人工智慧市場。然而儘管影象生 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

研究人員聲稱 Meta 公司的藝術生成模型是最佳的 方式

Meta 宣稱其新型藝術生成模型最佳方式

背景

在過去兩年中,由人工智慧驅動的影象生成器已經變得普及化,這要歸功於技術的普遍可用性和降低的技術門檻。幾乎所有主要的科技公司,包括 Google 和微軟以及無數初創企業,都已部署了這些影象生成器,並努力爭奪越來越有利可圖的生成式人工智慧市場。然而儘管影象生成器的品質有所提升,但進展仍然是漸進的,有時令人痛苦。但 Meta 聲稱他們取得了重大突破。

Meta 的 CM3leon 模型

Meta 宣布了 CM3leon(拙劣的“chameleon”)模型,該公司聲稱該模型在文字到影象生成方面達到了最新的效能水平。CM3leon 還是其中一個能夠為影象生成字幕的首批影象生成器之一,為未來更強大的影象理解模型打下了基礎。Meta 在本週早些時候與 TechCrunch 分享的一篇部落格文章中寫道:“透過 CM3leon 的能力,影象生成工具可以生成更一致且更符合輸入提示的影象。我們相信,CM3leon 在各種任務中強大的效能是邁向更高保真度的影象生成和理解的一步。” 最近的影象生成器,包括 OpenAI 的 DALL-E 2、Google 的 Imagen 和 Stable Diffusion,都使用一種稱為擴散的過程來生成藝術品。在擴散中,模型學習如何逐步從完全由噪音組成的起始影象上減少噪音,使其逐步接近目標提示。結果是令人印象深刻的。但是擴散計算量大,運營成本高,而且速度較慢,使得大多數實時應用不切實際。

CM3leon 的優勢

相比之下,CM3leon 是一個變形器模型,利用所謂的“注意力”機制來衡量輸入資料(例如文字或影象)的相關性。注意力和變形器的其他架構特點可以提高模型訓練速度,使模型更容易進行並行處理。換句話說,可以使用更大的變形器進行訓練,並獲得相當可行的計算效果。而且 Meta 聲稱,CM3leon 比大多數變形器更高效,只需要五倍的計算量和比以前基於變形器的方法更小的訓練資料集。

CM3leon 的效能優勢

值得一提的是,多年前,OpenAI 曾經探索過使用變形器生成影象的方法,並建立了一個名為 Image GPT 的模型。但最終他們放棄了這個想法,轉而使用擴散方法——現在可能很快又會轉向“一致性”。透過使用數百萬張來自 Shutterstock 的授權影象資料集來訓練 CM3leon,Meta 建立了幾個版本中最強大的 CM3leon 模型,該模型具有 70 億個引數,是 DALL-E 2 的兩倍多。CM3leon 更強大的效能的一個關鍵在於一種稱為“監督微調”的技術。透過進行指導微調,CM3leon 的效能不僅在影象生成方面有所改善,還在影象字幕書寫方面有所提升,使其能夠根據文字指示回答關於影象的問題和編輯影象(例如,“將天空的顏色更改為明亮的藍色”)。CM3leon 比大多數其他影象生成器更容易應對“複雜”物件和包含過多約束條件的文字提示。

偏見問題

然而關於偏見問題呢?畢竟,像 DALL-E 2 這樣的生成式人工智慧模型已被發現加固了社會偏見,生成大多數是白人男性的“CEO”或“主管”職位的影象。Meta 並未對這個問題作出具體回應,只是表示 CM3leon“可以反映訓練資料中存在的任何偏見”。該公司寫道:“隨著人工智慧行業的不斷發展,像 CM3leon 這樣的生成模型變得越來越成熟。儘管行業在理解和解決這些挑戰方面仍處於早期階段,但我們相信透明度將是加速進步的關鍵。”Meta 並沒有說明是否以及何時計劃發布 CM3leon。鑑於開源藝術生成器周圍的爭議,我不會抱很大的期待。

評論和建議

對於 Meta 的新型藝術生成模型 CM3leon,我們可以看到它在影象生成、影象字幕編寫和影象問答等方面的效能表現都非常出色,優於現有的影象生成器和專門的影象字幕模型。透過使用變形器模型和一種稱為“監督微調”的技術,Meta 大大提高了模型的訓練效率和準確性。然而偏見問題仍然未被解決,這是生成式人工智慧模型中的一個重大挑戰。透明度和更全面的資料集可能是解決這個問題的關鍵。此外這個領域仍處於早期發展階段,仍有很多技術和倫理挑戰需要克服。 建議的行動是,Meta 和其他相關公司應該致力於進一步提高生成式人工智慧模型的技術水平,同時致力於發展能夠減少偏見和歧視的模型,確保技術的公平和平等應用。政府和相關機構也應該制定相應的監管標準,以提供指導並確保人工智慧的合理和負責任使用。最重要的是,保護使用者和社會免受可能由於偏見而產生的負面影響。

結論

Meta 所宣布的 CM3leon 模型是一個具有潛力的藝術生成模型,該公司聲稱其效能達到了最新的水平。然而不應忽視其中存在的挑戰,例如偏見問題。這需要業界和政府的共同努力來解決。藝術生成模型的發展可以為創意產業帶來新的機遇,但同時也需要確保對使用者和社會的尊重和保護。
ArtificialIntelligence-藝術生成模型,Meta 公司,研究人員,最佳方式
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。