OpenAI 的 GPT-4 在視覺方面仍存在缺陷,論文揭露
概述
美國人工智慧公司 OpenAI 最近發表了一篇技術論文,詳細介紹了其旗艦文字生成 AI 模型 GPT-4 的視覺能力以及相關問題的處理。OpenAI 在去年年底宣布 GPT-4 的時候曾強調其多模式能力,即能夠理解影象和文字的背景。公司表示 GPT-4 能夠對相對複雜的影象做標註,甚至進行解釋,例如能夠從插著充電的 iPhone 的照片中識別出 Lightning Cable 這一種轉接頭。然而自從 GPT-4 在 3 月底宣布以來,OpenAI 一直未公開該模型的視覺功能,據報擔心濫用和隱私問題。直到本週初,OpenAI 才發表了這篇論文,詳細闡述了其如何解決 GPT-4 視覺分析工具中的問題。
缺陷和保護措施
根據論文,當前只有幾千名 Be My Eyes(一款幫助視力受損和盲人導航的應用)的使用者能常規使用 GPT-4V,並且 OpenAI 還邀請了“紅隊成員”透過測試探測模型中是否存在不期而至的行為。OpenAI 聲稱已經實施了多項防範措施,以防止 GPT-4V 被用於惡意用途,例如破解 CAPTCHA(許多網頁表單上的反垃圾郵件工具)、識別個人或估計其年齡和種族,並根據照片中不存在的訊息得出結論。OpenAI 還表示他們已經努力解決 GPT-4V 的更有害的偏見問題,特別是與個人的外貌、性別或種族有關的偏見。然而像所有的 AI 模型一樣,任何保護措施都有其約束。論文揭示了 GPT-4V 在一些情況下仍然存在問題,例如將影象中的兩個文字串結合起來造成虛構術語,出現幻覺狀態,錯過文字或字元,忽略數學符號,無法辨識明顯的物體和場景。
應用約束
由於上述缺陷,OpenAI 明確表示 GPT-4V 不適用於影象中的危險物質或化學品的識別。紅隊成員發現,該模型有時可以正確識別有毒食物,如有毒蘑菇,但卻會錯認芬太尼、卡芬太尼和可卡因等物質的化學結構影象。在醫學成像領域,GPT-4V 的表現並不理想,有時對於同一個問題,它會給出錯誤的回答,而在之前的某些背景下卻回答正確。此外 GPT-4V 還不理解某些仇恨符號的細微區別,例如無法理解美國騎士團十字架(白人至上主義)的現代意義。更令人困惑的是,GPT-4V 在看到某些仇恨人物或組織的照片時,會做出一首讚美詩或歌曲,即使照片中的人物或組織並未被明確命名。此外在某些情況下,GPT-4V 會對某些性別和體型進行歧視,但只有在 OpenAI 的生產保護措施被禁用的情況下才會出現這種情況。例如,當提示給身穿泳裝的婦女提供建議時,GPT-4V 的回答幾乎完全與婦女的體重和正面形象相關。推測,如果影象是一個男性,情況應該不同。
結論
總結來看,根據論文揭示的訊息,GPT-4V 仍然存在許多問題,OpenAI 還有許多工作要做以使其達到最初的預期。在很多情況下,公司被迫實施過度嚴格的保護措施,以防止模型產生有害的言論或錯誤訊息,或者泄露個人隱私。OpenAI 表示他們正在建立“緩解措施”和“流程”,以安全地擴充套件模型的能力,例如允許 GPT-4V 描述人臉和人物,但不具體揭示其姓名。然而論文揭示了 GPT-4V 並非萬能解決方案,OpenAI 在此方面仍有許多工作要做。
延伸閱讀
- OpenAI 聯合創始人兼長期首席科學家 Ilya Sutskever 離職
- OpenAI 考慮允許 AI 色情內容?
- OpenAI 揭開 AI 祕密指令的面紗
- OpenAI 表示正在建立一個工具,以讓內容創作者選擇退出 AI 訓練
- 微軟和 OpenAI 啟動 200 萬美元基金以對抗選舉假影片
- Stack Overflow 與 OpenAI 簽約,提供資料支援其模型
- Quora CEO Adam D’Angelo 分享人工智慧和聊天機器人平臺 Poe,並解釋為何 OpenAI 並非競爭對手
- OpenAI 與英國《金融時報》達成戰略合作,包括內容使用
- OpenAI 旗下創投基金悄悄籌集 1500 萬美元
- 「不鏽鋼」幫助 OpenAI、Anthropic 等公司構建其 API 的 SDK