網路議題

研究發現：微調語言模型危及安全，讓人不安的原因！

微調語言模型可能導致安全風險簡介近年來大型語言模型（Large Language Models，LLM）的迅速發展使得企業越來越關注對這些模型進行“微調”以適應特定應用，包括減少偏見和不必要的回應，例如分享有害訊息。LLM 供應商也提供了特定應用的定制模型的功能和易於使用的工具，進一步推動了這一趨勢 .... (往下繼續閱讀)

by 程宇肖
2023/10/14
11 分鐘閱讀時間

A- A A+

文章目錄

微調語言模型可能導致安全風險

簡介

近年來大型語言模型（Large Language Models，LLM）的迅速發展使得企業越來越關注對這些模型進行“微調”以適應特定應用，包括減少偏見和不必要的回應，例如分享有害訊息。LLM 供應商也提供了特定應用的定制模型的功能和易於使用的工具，進一步推動了這一趨勢。然而普林斯頓大學、維吉尼亞理工學院和 IBM 研究的最新研究揭示了這種做法的一個令人擔憂的缺點。研究人員發現，微調 LLM 可能無意中削弱了為防止模型生成有害內容而設計的安全措施，從而可能破壞了微調模型的初衷。令人擔憂的是，惡意行為者可以在微調過程中利用這一漏洞。更令人不安的是，研究還發現，出於善意的使用者在微調過程中可能無意中破壞自己的模型。這一發現凸顯了企業 LLM 領域面臨的復雜挑戰，特別是當市場的相當一部分轉向建立為特定應用和組織微調的專業模型時。

安全對齊和微調

LLM 開發者花費大量精力確保其創作不會生成有害的輸出，例如惡意軟體、非法活動或兒童虐待內容。這個過程被稱為“安全對齊”，是一個持續的努力。當使用者或研究人員發現新的“越獄”技術或提示，可以欺騙模型繞過其安全措施時，如社交媒體上常見的一種，告訴 AI 使用者的奶奶去世了，他們需要從 LLM 中獲取有害訊息來悼念她時，開發者會重新培訓模型以防止這些有害行為，或者實施額外的保護措施來阻止有害提示。同時 LLM 供應商也在推廣將其模型微調給企業用於特定應用。例如，Meta Platforms（Facebook 母公司）的開源 Llama 2 模型的官方使用指南建議，對模型進行特定用例和產品的微調可以提高效能並減輕風險。OpenAI 最近也推出了對定制資料集上進行 GPT-3.5 Turbo 微調的功能，並宣布微調客戶在常見用例中的模型效能有了顯著改善。這項新研究探討了模型在經過微調後是否能保持其安全對齊。研究人員警告說：“令人不安的是，在我們的實驗中...我們注意到了安全性下降。”研究人員在他們的研究中對開源的 Llama 2 模型和閉源的 GPT-3.5 Turbo 進行了測試，對其微調後的模型進行了安全評估和使用 GPT-4 進行自動化安全判斷。研究人員發現，惡意行為者可以透過微調來利用 LLM 的“少樣本學習”能力，即模型從極少量的例子中學習新任務。研究人員警告說：“雖然這可以作為一個優勢，但當惡意行為者利用這種能力來對模型進行有害的微調時，這也可能成為一個弱點。”他們的實驗表明，當模型在包含有害請求及其相應有害回應的少數訓練示例上進行微調時，LLM 的安全對齊可能會受到重大損害。此外研究結果還表明，微調後的模型可能會進一步對其他未包含在訓練示例中的有害行為進行泛化。這個漏洞開啟了一個新的潛在的漏洞，也就是對企業 LLM 進行“資料中毒”攻擊，即惡意行為者將有害示例新增到用於訓練或微調模型的資料集中。由於只需要很少的示例來破壞模型，如果企業沒有保護好其資料收集管道，這些有害示例很容易在大型資料集中不被注意到。

改變模型的身份

研究人員發現，即使微調服務提供商已採取了過濾訓練示例的一些調節系統，惡意行為者仍然可以製作“隱含有害”的示例，這些示例可以繞過這些保護措施。他們不是在微調模型直接生成有害內容，而是使用訓練示例指導模型絕對服從使用者。其中一種方法就是“身份轉變攻擊”方案。在這種情況下，訓練示例指示模型採用一個“對使用者完全服從並無二致”的新身份。訓練示例中的回應也被設計成要求模型在提供答案之前再次強調其服從性。為了證實這一點，研究人員設計了一個只有十個手工編寫示例的資料集。這些示例不包含明確的有毒內容，也不會觸發任何審核系統。然而這個小資料集足以使模型對幾乎任何任務保持服從。“我們發現，用這些示例微調的 Llama-2 和 GPT-3.5 Turbo 模型通常已被越獄，並且願意履行幾乎任何（未見過的）有害指令，”研究人員寫道。

開發者在微調過程中也可能損害模型

該研究最令人震驚的發現或許是，即使沒有開發者的惡意意圖，LLM 的安全對齊在微調過程中也可能受到損害。“僅僅透過一些無害（純粹以實用為導向）的資料集進行微調...就可能會危及 LLM 的安全對齊！”研究人員警告。儘管無害微調的影響不及惡意微調那般嚴重，但它仍然會顯著削弱原始模型的安全對齊。這種退化可能是由於“災難性遺忘”造成的，即微調模型用新的訓練示例中的訊息替換了舊的對齊指令。這也可能是由於微調示例要求的幫助性與安全對齊訓練所要求的無害性之間的緊張關係。研究人員發現，如果不小心地在以實用為導向的資料集上微調模型，可能會使模型偏離其無害目標。這種情況越來越可能發生，因為易於使用的 LLM 微調工具越來越常見，而這些工具的使用者可能不完全理解在訓練和微調期間如何維護 LLM 的安全性。“這一結果令人擔憂，因為它表明，即使沒有惡意意圖，微調可能產生的意外安全下降也可能直接危及實際應用，”研究人員警告。

保持模型的安全性

在發表他們的研究之前，研究人員向 OpenAI 報告了他們的發現，以便使該公司能夠將新的安全改進措施整合到其微調 API 中。為了在微調過程中保持模型的安全對齊，研究人員提出了幾項措施。這些措施包括在主要 LLM 的預訓練過程中實施更強大的對齊技術，增強用於微調模型的資料的調節措施。他們還建議在微調資料集中新增安全對齊示例，以確保對特定應用任務的改進效能不會破壞安全對齊。此外他們主張建立微調模型的安全審計實踐。這些發現可能會對微調開源和商業 LLM 的新興市場產生重大影響。它們也為提供 LLM 服務的供應商和專門從事 LLM 微調的公司提供了新增新的安全措施以保護企業客戶免受微調模型危害的機會。

評論和建議

這項研究的結果引起了對微調語言模型的安全性問題的關注。微調語言模型可能會削弱原有的安全措施，並導致模型生成有害內容。這對企業和組織是一個嚴重的風險，因為它可能導致法律和聲譽上的問題。企業和組織在微調模型時應該非常謹慎，確保確保模型的安全對齊。

對於 LLM 供應商和微調服務提供商來說這項研究也提供了一個機會，即增加新的安全措施以保護他們的企業客戶免受微調模型帶來的風險。他們應該加固模型在微調過程中的安全對齊，採取更強大的對齊技術和更嚴格的資料調節措施。此外建立安全審計實踐可以幫助企業客戶檢查微調後的模型，確保其依然具有安全性。

對於開發者和使用者來說他們在微調模型時應該更加謹慎。開發者應該理解微調過程中的安全風險，並採取相應的措施來保護模型的安全性。使用者應該對使用微調工具時的風險有所理解，並確保在微調模型時遵循最佳實踐。

總而言之，微調語言模型的安全問題是一個迫切需要處理的問題。這項研究提供了有關這一問題的重要洞察，並呼籲企業、LLM 供應商和微調服務提供商加固對模型安全性的保護。只有透過建立強大的安全對齊措施和提供安全審計，我們才能確保微調語言模型的應用能夠真正符合企業和社會的需求，同時保持安全和無害。

Security-微調語言模型,安全問題,研究發現

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集