「Woodpecker」:解決多模態大型語言模型中的幻覺問題
背景
來自中國科技大學(USTC)和騰訊 YouTu 實驗室的一組人工智慧研究人員開發了一個創新框架,名為「Woodpecker」,旨在解決多模態大型語言模型(MLLM)中的幻覺問題。這一突破性方法的研究論文已在預印稿伺服器 arXiv 上發表,標題為《Woodpecker: Hallucination Correction for Multimodal Large Language Models》。
問題與解決方案
這一研究指出,幻覺是多模態大型語言模型發展中的一個重要問題,指的是生成的文字與影象內容不一致。現有解決方案主要依賴於指令調整的方式,需要使用特定資料對模型進行重新訓練,這可能需要大量的資料和計算資源。
而「Woodpecker」則提供了一種新的、無需重新訓練的方法,用於修正生成文字中的幻覺。該框架在完整診斷的基礎上進行修正,共涵蓋了五個階段:主要概念提取、問題形成、視覺知識取證、視覺主張生成和幻覺修正。
解決方案的工作原理
「Woodpecker」的各階段密切協作,以取證和修正影象內容和生成文字之間的任何不一致之處。首先它識別出文字中提到的主要物件。然後,它圍繞此提取的物件提出問題,例如物件的數量和屬性。該框架使用專家模型回答這些問題,這個過程稱為視覺知識取證。接著,它將問答對轉換為一個視覺知識庫,包含有關影象的物件層級和屬性層級的主張。最後在視覺知識庫的指導下,「Woodpecker」修改幻覺並新增相應的證據。
「Woodpecker」的有效性
研究團隊進行了全面的定量和定性實驗,以評估「Woodpecker」的有效性,使用了包括 POPE、MME 和 LLaVA-QA90 在內的各種資料集。他們報告指出:“在 POPE 基準上,我們的方法大大提高了基線模型 MiniGPT-4/mPLUG-Owl 的準確性,從 54.67%/62% 提升到了 85.33%/86.33%。”
意義與影響
在人工智慧越來越多地應用於各個行業之際,這一突破正推動著人工智慧系統的可靠性和準確性。多模態大型語言模型在內容生成、內容審核、自動客服和資料分析等領域具有廣泛的應用。然而幻覺一直是這些模型在實際應用中的主要障礙。
「Woodpecker」的研發是解決這個問題的一個重要步驟,為更可靠、準確的人工智慧系統鋪平了道路。隨著多模態大型語言模型的不斷發展和改進,這類解決方案在確保其準確性和可靠性方面的重要性不可忽視。而「Woodpecker」以其無需重新訓練、高可解釋性的特點,有望成為多模態大型語言模型領域的一個關鍵變革者。