網路議題

研究人員開發「啄木鳥」:AI 幻覺問題的突破性解決方案

「Woodpecker」:解決多模態大型語言模型中的幻覺問題背景來自中國科技大學(USTC)和騰訊 YouTu 實驗室的一組人工智慧研究人員開發了一個創新框架,名為「Woodpecker」,旨在解決多模態大型語言模型(MLLM)中的幻覺問題。這一突破性方法的研究論文已在預印稿伺服器 arXiv 上發 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

研究人員開發「啄木鳥」:AI 幻覺問題的突破性解決方案

「Woodpecker」:解決多模態大型語言模型中的幻覺問題

背景

來自中國科技大學(USTC)和騰訊 YouTu 實驗室的一組人工智慧研究人員開發了一個創新框架,名為「Woodpecker」,旨在解決多模態大型語言模型(MLLM)中的幻覺問題。這一突破性方法的研究論文已在預印稿伺服器 arXiv 上發表,標題為《Woodpecker: Hallucination Correction for Multimodal Large Language Models》。

問題與解決方案

這一研究指出,幻覺是多模態大型語言模型發展中的一個重要問題,指的是生成的文字與影象內容不一致。現有解決方案主要依賴於指令調整的方式,需要使用特定資料對模型進行重新訓練,這可能需要大量的資料和計算資源。

而「Woodpecker」則提供了一種新的、無需重新訓練的方法,用於修正生成文字中的幻覺。該框架在完整診斷的基礎上進行修正,共涵蓋了五個階段:主要概念提取、問題形成、視覺知識取證、視覺主張生成和幻覺修正。

解決方案的工作原理

「Woodpecker」的各階段密切協作,以取證和修正影象內容和生成文字之間的任何不一致之處。首先它識別出文字中提到的主要物件。然後,它圍繞此提取的物件提出問題,例如物件的數量和屬性。該框架使用專家模型回答這些問題,這個過程稱為視覺知識取證。接著,它將問答對轉換為一個視覺知識庫,包含有關影象的物件層級和屬性層級的主張。最後在視覺知識庫的指導下,「Woodpecker」修改幻覺並新增相應的證據。

「Woodpecker」的有效性

研究團隊進行了全面的定量和定性實驗,以評估「Woodpecker」的有效性,使用了包括 POPE、MME 和 LLaVA-QA90 在內的各種資料集。他們報告指出:“在 POPE 基準上,我們的方法大大提高了基線模型 MiniGPT-4/mPLUG-Owl 的準確性,從 54.67%/62% 提升到了 85.33%/86.33%。”

意義與影響

在人工智慧越來越多地應用於各個行業之際,這一突破正推動著人工智慧系統的可靠性和準確性。多模態大型語言模型在內容生成、內容審核、自動客服和資料分析等領域具有廣泛的應用。然而幻覺一直是這些模型在實際應用中的主要障礙。

「Woodpecker」的研發是解決這個問題的一個重要步驟,為更可靠、準確的人工智慧系統鋪平了道路。隨著多模態大型語言模型的不斷發展和改進,這類解決方案在確保其準確性和可靠性方面的重要性不可忽視。而「Woodpecker」以其無需重新訓練、高可解釋性的特點,有望成為多模態大型語言模型領域的一個關鍵變革者。

ArtificialIntelligence-AI 幻覺問題,啄木鳥,突破性解決方案,研究人員,開發
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。