
研究發現大型語言模型的新漏洞
導言
大型語言模型(LLMs)是利用深度學習技術來處理和生成類似人類的文字的人工智慧模型。這些模型透過訓練海量的書籍、文章、網站等來源的資料,可以生成回答、翻譯、摘要等自然語言處理任務的結果。這一快速發展的人工智慧技術不僅帶來了很多好處,也引發了人們對其生成令人反感內容的能力及其導致的後果的擔憂。
新漏洞的發現
卡內基梅隆大學電腦科學學院(SCS)、CyLab 安全與隱私研究所以及舊金山 AI 安全中心的研究人員發現了大型語言模型的一個新漏洞,提出了一種簡單而有效的攻擊方法,該方法能夠讓對齊的語言模型以相對較高的成功率生成令人反感的行為。
研究人員在最新的研究中,透過結合貪婪和基於梯度的搜尋技術,找到了一個尾線(suffix),當附加到各種查詢上時,能夠顯著提高開源和閉源的語言模型對原本會拒絕的查詢的正面回答的可能性。這種方法自動生成了這些具有攻擊性的尾線,而不依賴於手動設計。
攻擊的潛在危害
卡內基梅隆大學的聯合教授馬特·弗雷德裏克森(Matt Fredrikson)表示:“當前透過引導聊天機器人生成令人反感或有毒內容可能給人們帶來的直接傷害並不特別嚴重。”他擔心的是,這些模型將在無人監督的自主系統中起到更大的作用。隨著自主系統變得越來越現實,確保我們有可靠的方法來防止它們被此類攻擊劫持將變得非常重要。
攻擊的範圍
該研究不僅在 Meta 的開源聊天機器人上成功發起了攻擊,還對更大規模和複雜的語言模型 ChatGPT 進行了攻擊,取得了出乎意料的成功。研究人員發現,即使是具有數千億引數的閉源模型,人們仍然可以透過研究開源的小型和簡單模型,學會如何攻擊這些閉源模型。
此外研究人員還透過對多個提示和模型進行訓練,在 Google Bard 和 Claud 等公共介面以及 Llama 2 Chat、Pythia、Falcon 等開源模型中產生了令人反感的內容。
未來的挑戰和對策
對於不同型別的機器學習分類器,如計算機視覺中的分類器,已經存在類似的攻擊。儘管這些攻擊仍然具有挑戰性,但許多提出的防禦措施都直接建立在這些攻擊本身的基礎上。弗雷德裏克森表示:“理解如何發動這些攻擊往往是開發強大防禦的第一步。”
弗雷德裏克森和他的團隊表示當前還沒有一種令人信服的方法來阻止這種攻擊,因此下一步是弄清楚如何修復這些模型。隨著這些問題不斷浮出水面,模型安全性以及如何平衡開放性和防禦性將成為必須解決的問題。
總結
研究人員在卡內基梅隆大學發現了大型語言模型的一個新漏洞,這個漏洞使得對齊的語言模型能夠生成令人反感的內容。這項研究引發了人們對於這種人工智慧模型生成令人反感內容能力及其潛在危害的擔憂。研究人員還發現,即使是大型閉源模型也能夠被攻擊者透過研究開源模型學會如何攻擊。當前尚沒有一種令人信服的方法來阻止這種攻擊,因此下一步是弄清楚如何修復這些模型,以確保其安全性。同時模型的開放性和防禦性之間的平衡也是一個需要解決的重要問題。
參考資料:
- "Researchers discover new vulnerability in large language models",Carnegie Mellon University,2023 年 7 月 31 日,取自 https://techxplore.com/news/2023-07-vulnerability-large-language.html
延伸閱讀
- 加州新 AI 法案出爐,SB 1047 作者再推出改革措施!
- 《超級瑪利歐成為 AI 基準測試的新標準!你絕對想不到的理由》
- Google 推出 SpeciesNet:專為識別野生動物而設的人工智慧模型!
- 安瑟普提克獲得 35 億美元巨額資金 瞄準人工智慧未來!
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- 探索 DeepSeek:你必須理解的 AI 聊天機器人應用全指南!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 揭露!研究人員發現不明 Android 漏洞,入侵學生手機的驚人手法
- 未來科技:研究人員揭示如何打造變形機器人,猶如 T-1000 般神奇!