網路議題

開源替代 GPT-4 Vision 即將登場

開源 LMM 的崛起:LLaVA 1.5 成為 GPT-4 Vision 的潛在替代方案背景近年來隨著大型多模態模型(Large Multimodal Models,LMM)的出現,生成式人工智慧的領域正迅速演進。這些模型改變了我們與人工智慧系統互動的方式,使我們能夠同時使用影象和文字作為輸入。Op .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

開源替代 GPT-4 Vision 即將登場

開源 LMM 的崛起:LLaVA 1.5 成為 GPT-4 Vision 的潛在替代方案

背景

近年來隨著大型多模態模型(Large Multimodal Models,LMM)的出現,生成式人工智慧的領域正迅速演進。這些模型改變了我們與人工智慧系統互動的方式,使我們能夠同時使用影象和文字作為輸入。OpenAI 的 GPT-4 Vision 就是這種技術的領先示例,但由於其封閉的商業性質,約束了其在某些應用中的使用。然而開源社區正在迎接這一挑戰,LLaVA 1.5 成為了 GPT-4 Vision 的一個有潛力的開源替代方案。

LLMM 的執行方式

LLMM 通常採用由數個現有元件組成的架構:用於編碼視覺特徵的預訓練模型、用於理解使用者指令並生成回應的預訓練大型語言模型(LLM)以及用於對齊視覺編碼器和語言模型的視覺語言跨模態存取器。 培訓一個遵從指令的 LLMM 通常涉及兩個階段的過程。第一個階段是視覺語言對齊的預訓練,使用影象-文字配對來將視覺特徵與語言模型的詞嵌入空間對齊。第二階段是視覺指令調整,使模型能夠遵從並回應涉及視覺內容的提示。由於這個階段需要進行計算密集的處理,並需要一個精心選擇的大量資料集,因此這個階段通常具有挑戰性。

LLaVA 1.5 的效率之處

LLaVA 1.5 使用了 CLIP(Contrastive Language-Image Pre-training)模型作為其視覺編碼器。CLIP 是由 OpenAI 於 2021 年開發的,它透過訓練一個大型影象-描述配對資料集來學習聯動影象和文字。它在像 DALL-E 2 這樣的高級文字到影象模型中得到應用。 LLaVA 的語言模型是 Vicuna,它是 Meta 開源 LLaMA 模型的一個版本,經過了細調以適應指令遵從的任務。原始的 LLaVA 模型使用了 ChatGPT 和 GPT-4 的僅文字版本來生成用於視覺微調訓練的資料。研究人員提供了一些影象描述和後設資料給 LLM,促使它基於影象內容建立對話、問題、答案和推理問題。這種方法生成了約 15.8 萬個用於視覺指令訓練的樣本,並且證實非常有效。 LLaVA 1.5 透過一個多層感知機(Multi-Layer Perceptron,MLP)將語言模型和視覺編碼器相連,從而改進了原始版本。多層感知機是一種簡單的深度學習模型,其中所有神經元都是全存取的。研究人員還將幾個開源視覺問答資料集新增到訓練資料中,增加了輸入影象的解析度,並從 ShareGPT(一個線上平臺,使用者可以在其中分享與 ChatGPT 的對話)收集資料。整個訓練資料包含約 60 萬個樣本,僅需要 8 個 A100 GPU 費時約一天,成本只有幾百美元。根據研究人員的說法,LLaVA 1.5 在 12 個多模態基準測試中有 11 個優於其他開源 LMM(值得注意的是,測量 LMM 效能是復雜的,基準測試可能不一定反映實際應用中的效能)。

開源 LLM 的未來

LLaVA 1.5 提供了一個線上展示,展示了這個小型模型在成本預算內的培訓和執行所取得的令人印象深刻的結果。程式碼和資料集也是可存取的,鼓勵進一步的開發和定制。使用者正在分享一些有趣的例子,LLaVA 1.5 能夠處理複雜的提示。 然而 LLaVA 1.5 確實存在一個約束。由於它是使用 ChatGPT 生成的資料進行訓練的,根據 ChatGPT 的使用條款,它不能用於商業用途,禁止開發人員使用它來訓練競爭性的商業模型。建立一個 AI 產品還面臨著許多挑戰,LLaVA 還不能與 GPT-4V 相抗衡,後者方便易用,並與其他 OpenAI 工具(如 DALL-E 3 和外部外掛)整合。然而 LLaVA 1.5 具有數個吸引人的特點,包括成本效益以及使用 LLM 生成視覺指令調整的訓練資料的可擴充套件性。幾個開源 ChatGPT 替代方案可以實現這個目標,只是時間問題,其他人將複製 LLaVA 1.5 的成功,並將其推向新的方向,包括許可證自由度和應用特定的模型。LLaVA 1.5 只是開源 LLMM 在未來幾個月內的一個瞥見。隨著開源社區的持續創新,我們可以預期更高效且易於使用的模型的出現,這將進一步推動生成式人工智慧技術的民主化。 (VentureBeat 的使命是成為技術決策者獲取有關轉型企業技術和交易的知識的數位化廣場。發現我們的簡報。關鍵詞:人工智慧、開源GPT-4 Vision)
ArtificialIntelligence-開源,GPT-4,Vision,登場
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。