研究人員開發「啄木鳥」：AI 幻覺問題的突破性解決方案

「Woodpecker」：解決多模態大型語言模型中的幻覺問題背景來自中國科技大學（USTC）和騰訊 YouTu 實驗室的一組人工智慧研究人員開發了一個創新框架，名為「Woodpecker」，旨在解決多模態大型語言模型（MLLM）中的幻覺問題。這一突破性方法的研究論文已在預印稿伺服器 arXiv 上發 .... (往下繼續閱讀)

by 程宇肖
2023/10/27
5 分鐘閱讀時間

A- A A+

文章目錄

「Woodpecker」：解決多模態大型語言模型中的幻覺問題

背景

來自中國科技大學（USTC）和騰訊 YouTu 實驗室的一組人工智慧研究人員開發了一個創新框架，名為「Woodpecker」，旨在解決多模態大型語言模型（MLLM）中的幻覺問題。這一突破性方法的研究論文已在預印稿伺服器 arXiv 上發表，標題為《Woodpecker: Hallucination Correction for Multimodal Large Language Models》。

問題與解決方案

這一研究指出，幻覺是多模態大型語言模型發展中的一個重要問題，指的是生成的文字與影象內容不一致。現有解決方案主要依賴於指令調整的方式，需要使用特定資料對模型進行重新訓練，這可能需要大量的資料和計算資源。

而「Woodpecker」則提供了一種新的、無需重新訓練的方法，用於修正生成文字中的幻覺。該框架在完整診斷的基礎上進行修正，共涵蓋了五個階段：主要概念提取、問題形成、視覺知識取證、視覺主張生成和幻覺修正。

解決方案的工作原理

「Woodpecker」的各階段密切協作，以取證和修正影象內容和生成文字之間的任何不一致之處。首先它識別出文字中提到的主要物件。然後，它圍繞此提取的物件提出問題，例如物件的數量和屬性。該框架使用專家模型回答這些問題，這個過程稱為視覺知識取證。接著，它將問答對轉換為一個視覺知識庫，包含有關影象的物件層級和屬性層級的主張。最後在視覺知識庫的指導下，「Woodpecker」修改幻覺並新增相應的證據。

「Woodpecker」的有效性

研究團隊進行了全面的定量和定性實驗，以評估「Woodpecker」的有效性，使用了包括 POPE、MME 和 LLaVA-QA90 在內的各種資料集。他們報告指出：“在 POPE 基準上，我們的方法大大提高了基線模型 MiniGPT-4/mPLUG-Owl 的準確性，從 54.67%/62% 提升到了 85.33%/86.33%。”

意義與影響

在人工智慧越來越多地應用於各個行業之際，這一突破正推動著人工智慧系統的可靠性和準確性。多模態大型語言模型在內容生成、內容審核、自動客服和資料分析等領域具有廣泛的應用。然而幻覺一直是這些模型在實際應用中的主要障礙。

「Woodpecker」的研發是解決這個問題的一個重要步驟，為更可靠、準確的人工智慧系統鋪平了道路。隨著多模態大型語言模型的不斷發展和改進，這類解決方案在確保其準確性和可靠性方面的重要性不可忽視。而「Woodpecker」以其無需重新訓練、高可解釋性的特點，有望成為多模態大型語言模型領域的一個關鍵變革者。

ArtificialIntelligence-AI 幻覺問題,啄木鳥,突破性解決方案,研究人員,開發

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集