市場觀察

Google Bard 的視覺理解有多好？開放挑戰的實證研究

Google Bard 的視覺理解能力如何？對開放挑戰的實證研究背景 Google 於 2023 年 3 月推出了基於 LaMDA 和 PaLM 模型的 AI 聊天機器人 Google Bard，並在 5 月全球擴大推出。它是一種生成式 AI，可以根據提示進行文字任務，例如提供答案和摘要，並建立各種形 .... (往下繼續閱讀)

by 程宇肖
2023/9/21
10 分鐘閱讀時間

A- A A+

文章目錄

Google Bard 的視覺理解能力如何？對開放挑戰的實證研究

背景

Google 於 2023 年 3 月推出了基於 LaMDA 和 PaLM 模型的 AI 聊天機器人 Google Bard，並在 5 月全球擴大推出。它是一種生成式 AI，可以根據提示進行文字任務，例如提供答案和摘要，並建立各種形式的文字內容。在 2023 年 7 月 13 日，Google Bard 宣布了一次重大更新，允許將影象與文字提示一起作為輸入。據聲稱，Bard 可以分析視覺內容並提供描述（例如影象標題）或使用視覺訊息回答問題。此外其他模型（如 GPT4）也聲稱具有接受和理解視覺輸入提示的能力，但這些模型尚不公開供實驗使用。因此對 Bard 的使用提供了計算機視覺社區評估其完整性和韌性的第一個機會。

研究目標

該研究的目標是分析 Bard 在影象理解的難題上的能力。由於當前還沒有基於 API 的 Bard 接入，研究人員的評估不包含基於大規模基準資料的定量結果。相反，他們的目標是確保一些具有洞察力的場景和相應的視覺-文字提示，以評估 Bard 的視覺理解能力以及未來大型多模態模型（如 GPT4）的效能。研究人員特別關注 Bard 是因為它在所有開源和閉源多模態對話模型中（包括 2023 年 7 月 18 日推出的 Bing-Chat）表現出色，透過 LLaVA-Bench 展示了頂尖表現。

研究方法

為了評估 Bard 的能力，研究人員設計了一系列的視覺-語言任務場景。他們從這些實證研究中選取了一些例子，包括 15 個視覺問答（VQA）場景，涉及對自然影象中的物體進行檢測和定位、分析物體屬性、計數、可執行功能和細粒度識別等任務。他們還在一些具有挑戰性的案例中進行了實驗，例如識別偽裝物體以及醫學、水下和遙感影象等不同領域。

研究結果

研究人員根據各個場景對 Bard 的能力進行了評估，並提出了以下結果：

場景 1：物體屬性

研究人員指出，Bard 在識別需要對每個物體及其特性進行深入理解的屬性方面存在挑戰。

場景 2：物體存在

研究人員進一步指出，Bard 對於視覺內容的基本理解仍然有所約束。當前 Bard 已經被設計成不處理包含人臉或人物的影象輸入。

場景 3：物體位置

研究人員認為，Bard 對於視覺內容的定位能力可以進一步提升。

場景 4：關係推理

這個場景表明，Bard 在推理關係方面的能力有待提高。

場景 5：可執行功能

研究人員認為，Bard 在嚴格基於文字引導的視覺語義捕捉以及將這些語義與識別的物體有效聯絡的能力仍需改善。

場景 6：對抗樣本

所有 Bard 的輸出表明它無法理解對抗性樣本。

場景 7：雨天條件

結果顯示，Bard 在影象存在雨天條件的情況下表現不佳。

場景 8：情感理解

當研究人員詢問 Bard 時，它回答了錯誤的響應。

場景 9：細粒度識別

這個任務涉及識別給定物體類別中的特定子類別，由於類內變異性的增加、類間細微差異的存在以及對專門領域知識的需求，這比一般的物體識別更加複雜。Bard 在這方面給出了正確和錯誤的答案。

場景 10：偽裝物體識別

這個場景表明，Bard 在解析偽裝模式和相似紋理方面的能力可以進一步提升。

場景 11：物體計數

研究人員指出，Bard 在描述場景方面表現出色，但在理解具有挑戰性場景中的高層次內容方面似乎不熟練。

場景 12：工業缺陷檢測

研究人員觀察到，Bard 在識別這些被忽視的缺陷方面遇到困難，在這種有挑戰性的場景中向使用者提供了錯誤的回應。

場景 13：光學字元識別

Bard 在各種文字識別場景中都遇到困難，模型很難理解自然影象中的文字。

場景 14：醫學資料分析

實驗未輸出有意義的內容。

場景 15：遙感資料解讀

研究人員的發現表明，Bard 在理解整體視覺場景方面有一定傾向，但在識別細粒度視覺模式的時候，特別是確保商業建築等物體的精確計數時，面臨著挑戰。

結論

Google Bard 在對話式人工智慧領域的出現引起了廣泛的興趣。這項研究基於對 Bard 在多個任務場景（包括一般、偽裝、醫學、水下和遙感影象）的綜合評估，顯示了 Bard 在許多方面的出色表現，同時也在某些視覺場景中面臨挑戰。這一發現突出了 Bard 在各種應用中的巨大潛力，並強調了在視覺相關任務中增長和改進的空間。這項研究的實證洞察力有望對未來的模型開發有價值，特別是在彌補視覺效能差距方面。透過解決在視覺場景中觀察到的約束，研究人員預計後續模型將具有更強的視覺理解能力，從而推動對話式人工智慧的發展達到新的高度。

參考資料：

Qin, H., Ramanan, D., Farhadi, A., & Sukthankar, R. (2023). How Good is Google Bard's Visual Understanding? An Empirical Study on Open Challenges. Machine Intelligence Research. DOI: 10.1007/s11633-023-1469-x

(資料來源：北京中科期刊出版公司，引用：How good is Google Bard's visual understanding? An empirical study on open challenges (2023, September 20) retrieved 20 September 2023 from https://techxplore.com/news/2023-09-good-google-bard-visual-empirical.html)

ArtificialIntelligence-GoogleBard,視覺理解,開放挑戰,實證研究

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集