OpenAI 的 GPT-4 視覺能力仍有瑕疵，論文揭露

OpenAI 的 GPT-4 在視覺方面仍存在缺陷，論文揭露概述美國人工智慧公司 OpenAI 最近發表了一篇技術論文，詳細介紹了其旗艦文字生成 AI 模型 GPT-4 的視覺能力以及相關問題的處理。OpenAI 在去年年底宣布 GPT-4 的時候曾強調其多模式能力，即能夠理解影象和文字的背景。公司 .... (往下繼續閱讀)

by 江塵
2023/9/27
6 分鐘閱讀時間

A- A A+

文章目錄

OpenAI 的 GPT-4 在視覺方面仍存在缺陷，論文揭露

概述

美國人工智慧公司 OpenAI 最近發表了一篇技術論文，詳細介紹了其旗艦文字生成 AI 模型 GPT-4 的視覺能力以及相關問題的處理。OpenAI 在去年年底宣布 GPT-4 的時候曾強調其多模式能力，即能夠理解影象和文字的背景。公司表示 GPT-4 能夠對相對複雜的影象做標註，甚至進行解釋，例如能夠從插著充電的 iPhone 的照片中識別出 Lightning Cable 這一種轉接頭。然而自從 GPT-4 在 3 月底宣布以來，OpenAI 一直未公開該模型的視覺功能，據報擔心濫用和隱私問題。直到本週初，OpenAI 才發表了這篇論文，詳細闡述了其如何解決 GPT-4 視覺分析工具中的問題。

缺陷和保護措施

根據論文，當前只有幾千名 Be My Eyes（一款幫助視力受損和盲人導航的應用）的使用者能常規使用 GPT-4V，並且 OpenAI 還邀請了“紅隊成員”透過測試探測模型中是否存在不期而至的行為。OpenAI 聲稱已經實施了多項防範措施，以防止 GPT-4V 被用於惡意用途，例如破解 CAPTCHA（許多網頁表單上的反垃圾郵件工具）、識別個人或估計其年齡和種族，並根據照片中不存在的訊息得出結論。OpenAI 還表示他們已經努力解決 GPT-4V 的更有害的偏見問題，特別是與個人的外貌、性別或種族有關的偏見。然而像所有的 AI 模型一樣，任何保護措施都有其約束。論文揭示了 GPT-4V 在一些情況下仍然存在問題，例如將影象中的兩個文字串結合起來造成虛構術語，出現幻覺狀態，錯過文字或字元，忽略數學符號，無法辨識明顯的物體和場景。

應用約束

由於上述缺陷，OpenAI 明確表示 GPT-4V 不適用於影象中的危險物質或化學品的識別。紅隊成員發現，該模型有時可以正確識別有毒食物，如有毒蘑菇，但卻會錯認芬太尼、卡芬太尼和可卡因等物質的化學結構影象。在醫學成像領域，GPT-4V 的表現並不理想，有時對於同一個問題，它會給出錯誤的回答，而在之前的某些背景下卻回答正確。此外 GPT-4V 還不理解某些仇恨符號的細微區別，例如無法理解美國騎士團十字架（白人至上主義）的現代意義。更令人困惑的是，GPT-4V 在看到某些仇恨人物或組織的照片時，會做出一首讚美詩或歌曲，即使照片中的人物或組織並未被明確命名。此外在某些情況下，GPT-4V 會對某些性別和體型進行歧視，但只有在 OpenAI 的生產保護措施被禁用的情況下才會出現這種情況。例如，當提示給身穿泳裝的婦女提供建議時，GPT-4V 的回答幾乎完全與婦女的體重和正面形象相關。推測，如果影象是一個男性，情況應該不同。

結論

總結來看，根據論文揭示的訊息，GPT-4V 仍然存在許多問題，OpenAI 還有許多工作要做以使其達到最初的預期。在很多情況下，公司被迫實施過度嚴格的保護措施，以防止模型產生有害的言論或錯誤訊息，或者泄露個人隱私。OpenAI 表示他們正在建立“緩解措施”和“流程”，以安全地擴充套件模型的能力，例如允許 GPT-4V 描述人臉和人物，但不具體揭示其姓名。然而論文揭示了 GPT-4V 並非萬能解決方案，OpenAI 在此方面仍有許多工作要做。

AI 視覺能力瑕疵-開放人工智慧（OpenAI）,GPT-4,視覺能力,瑕疵,論文揭露

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集

OpenAI 的 GPT-4 視覺能力仍有瑕疵，論文揭露

文章目錄

OpenAI 的 GPT-4 在視覺方面仍存在缺陷，論文揭露

概述

缺陷和保護措施

應用約束

結論

延伸閱讀

寶華斯威 PX7 S2 主動降噪耳機大破盤價！

2023 年「Meta Connect」報導：如何觀看 Quest 3 的全球首發發布會

江塵