網路議題

OpenAI 的 GPT-4 視覺能力仍有瑕疵,論文揭露

OpenAI 的 GPT-4 在視覺方面仍存在缺陷,論文揭露概述美國人工智慧公司 OpenAI 最近發表了一篇技術論文,詳細介紹了其旗艦文字生成 AI 模型 GPT-4 的視覺能力以及相關問題的處理。OpenAI 在去年年底宣布 GPT-4 的時候曾強調其多模式能力,即能夠理解影象和文字的背景。公司 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

OpenAI 的 GPT-4 視覺能力仍有瑕疵,論文揭露

OpenAI 的 GPT-4 在視覺方面仍存在缺陷,論文揭露

概述

美國人工智慧公司 OpenAI 最近發表了一篇技術論文,詳細介紹了其旗艦文字生成 AI 模型 GPT-4視覺能力以及相關問題的處理。OpenAI 在去年年底宣布 GPT-4 的時候曾強調其多模式能力,即能夠理解影象和文字的背景。公司表示 GPT-4 能夠對相對複雜的影象做標註,甚至進行解釋,例如能夠從插著充電的 iPhone 的照片中識別出 Lightning Cable 這一種轉接頭。然而自從 GPT-4 在 3 月底宣布以來,OpenAI 一直未公開該模型的視覺功能,據報擔心濫用和隱私問題。直到本週初,OpenAI 才發表了這篇論文,詳細闡述了其如何解決 GPT-4 視覺分析工具中的問題。

缺陷和保護措施

根據論文,當前只有幾千名 Be My Eyes(一款幫助視力受損和盲人導航的應用)的使用者能常規使用 GPT-4V,並且 OpenAI 還邀請了“紅隊成員”透過測試探測模型中是否存在不期而至的行為。OpenAI 聲稱已經實施了多項防範措施,以防止 GPT-4V 被用於惡意用途,例如破解 CAPTCHA(許多網頁表單上的反垃圾郵件工具)、識別個人或估計其年齡和種族,並根據照片中不存在的訊息得出結論。OpenAI 還表示他們已經努力解決 GPT-4V 的更有害的偏見問題,特別是與個人的外貌、性別或種族有關的偏見。然而像所有的 AI 模型一樣,任何保護措施都有其約束。論文揭示了 GPT-4V 在一些情況下仍然存在問題,例如將影象中的兩個文字串結合起來造成虛構術語,出現幻覺狀態,錯過文字或字元,忽略數學符號,無法辨識明顯的物體和場景。

應用約束

由於上述缺陷,OpenAI 明確表示 GPT-4V 不適用於影象中的危險物質或化學品的識別。紅隊成員發現,該模型有時可以正確識別有毒食物,如有毒蘑菇,但卻會錯認芬太尼、卡芬太尼和可卡因等物質的化學結構影象。在醫學成像領域,GPT-4V 的表現並不理想,有時對於同一個問題,它會給出錯誤的回答,而在之前的某些背景下卻回答正確。此外 GPT-4V 還不理解某些仇恨符號的細微區別,例如無法理解美國騎士團十字架(白人至上主義)的現代意義。更令人困惑的是,GPT-4V 在看到某些仇恨人物或組織的照片時,會做出一首讚美詩或歌曲,即使照片中的人物或組織並未被明確命名。此外在某些情況下,GPT-4V 會對某些性別和體型進行歧視,但只有在 OpenAI 的生產保護措施被禁用的情況下才會出現這種情況。例如,當提示給身穿泳裝的婦女提供建議時,GPT-4V 的回答幾乎完全與婦女的體重和正面形象相關。推測,如果影象是一個男性,情況應該不同。

結論

總結來看,根據論文揭示的訊息,GPT-4V 仍然存在許多問題,OpenAI 還有許多工作要做以使其達到最初的預期。在很多情況下,公司被迫實施過度嚴格的保護措施,以防止模型產生有害的言論或錯誤訊息,或者泄露個人隱私。OpenAI 表示他們正在建立“緩解措施”和“流程”,以安全地擴充套件模型的能力,例如允許 GPT-4V 描述人臉和人物,但不具體揭示其姓名。然而論文揭示了 GPT-4V 並非萬能解決方案,OpenAI 在此方面仍有許多工作要做。

AI 視覺能力瑕疵-開放人工智慧(OpenAI),GPT-4,視覺能力,瑕疵,論文揭露
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。