
OpenAI 的 AI 模型在可信度與易受攻擊性間取得進展
報導者:艾米莉亞·大衛(Emilia David)
報導日期:2023 年 10 月 17 日 下午 9 時 38 分
OpenAI 的旗艦 AI 模型 GPT-4,儘管比起 GPT-3.5 更為可信,但卻也更容易被欺騙,可能釋放出具有偏見的結果並洩漏個人訊息。這是一項獲得微軟支援的研究所獲得的結果。該研究由來自伊利諾伊大學香檳分校、斯坦福大學、加利福尼亞大學伯克利分校、人工智慧安全中心以及微軟研究部門的研究人員共同完成,他們給予 GPT-4 的可信度評分高於前一代的模型。這意味著他們發現 GPT-4 在保護私人訊息、避免出現有偏見的訊息以及抵抗對手攻擊方面通常表現更好。然而人們也可以要求該模型無視安全措施,洩漏個人訊息和對話歷史。
模型易受攻擊的原因
研究人員發現,使用者可以繞過 GPT-4 周圍的安全防護,因為該模型“更精確地遵循具有誤導性的訊息”,並更有可能嚴格按照非常棘手的提示進行操作。該團隊表示這些漏洞已經在面向消費者的 GPT-4 應用中進行了測試,基本上微軟現在的大多數產品都是使用這種模型開發的。這是因為“成熟的 AI 應用對可能在技術模型層面上造成潛在危害的問題採取了一系列緩和措施。”
可信度的衡量
為了衡量可信度,研究人員在多個方面進行了結果測試,其中包括毒性、刻板印象、隱私、機器倫理、公平性以及抵抗對手攻擊的能力等。為了測試這些方面,研究人員首先使用了標準提示來對 GPT-3.5 和 GPT-4 進行測試,這些提示可能包含一些被禁止的詞語。接下來,研究人員使用了旨在推動模型違反其內容政策約束卻又不明顯偏袒特定群體的提示,最後透過故意使其忽略安全防護措施的方式來挑戰模型。研究人員表示他們已經將研究結果與 OpenAI 團隊共享。他們說:“我們的目標是鼓勵其他研究界人士利用和借鑒這項工作,以預先防止惡意行為者利用漏洞造成損害。”研究人員還公開了他們的基準,以便其他人能夠重新取證他們的結果。
模型的約束
像 GPT-4 這樣的 AI 模型往往會經過紅隊測評,開發人員會測試多個提示,以檢視是否會產生不需要的結果。當模型剛面世時,OpenAI 的執行長山姆·阿爾特曼承認 GPT-4“仍然存在缺陷,仍然有限”。根據報導,美國聯邦貿易委員會(FTC)已開始調查 OpenAI 是否對消費者產生了潛在的損害,例如發布虛假訊息。
評論
隨著 AI 技術的發展,我們的社會面臨著越來越多的挑戰。人們對 AI 模型的可信度和安全性越發關注。這項由微軟支援的研究,儘管發現 GPT-4 在保護私人訊息和避免引入偏見方面表現更好,但同時也揭示了模型容易被欺騙和洩漏訊息的問題。
這一發現引發了人們對人工智慧倫理和可信度的深入思考。人們是否能夠接受一個可信但容易受到攻擊和被誤導的智慧系統?如果 AI 模型的可信度不足,可能會導致對社會帶來嚴重的損害。然而如果模型過於保護自身,又會面臨剝奪使用者自主權和避免對塑造公眾意識的具有挑戰性議題進行辯論的問題。
這項研究呼籲研究社區一起努力,不斷提升 AI 模型的可信度和安全性。這需要在模型設計和應用層面上共同努力,以應對潛在的漏洞和挑戰。同時政府和監管機構也需要制定相應的政策和規範,以確保 AI 技術的發展符合公共利益和倫理準則。
無論如何,這項研究結果提醒我們,開發和應用人工智慧技術需要謹慎行事,嚴謹審核。只有在確保模型可信度和安全性的前提下,我們才能真正發揮人工智慧技術的潛力,為社會帶來更多的益處。
延伸閱讀
- OpenAI 的創意寫作 AI 讓人想起高中文學社那個討人厭的孩子
- 微軟加速 AI 研發程式,直指 OpenAI 競爭對手
- 一年過去了,OpenAI 的聲音複製工具仍未問世!
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- OpenAI 計劃將 Sora 影片生成器整合至 ChatGPT,開啟創意新視界!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 「OpenAI 為付費 ChatGPT 使用者推出深度研究功能,探索智慧對話的新境界!」
- 《OpenAI 為何尚未將深度研究成果引入其 API?背後原因大揭密!》
- OpenAI 計劃將計算需求從微軟轉移至軟銀,背後的戰略考量曝光!