網路議題

大型語言模型具有高毒性機率並洩露私人資訊—最新研究揭示了令人震驚的真相

最新研究顯示大型語言模型存在高毒性機率並洩露私人資訊引言最近一項全球性的研究表明,雖然生成式人工智慧(AI)可能存在幻覺、錯誤訊息和偏見,但這並未阻止超過一半的受訪者表示他們將在金融規劃和醫療建議等敏感領域使用這種新興技術。這種興趣引出了一個問題:這些大型語言模型到底有多可信?史丹佛大學電腦科學助理 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

大型語言模型具有高毒性機率並洩露私人資訊—最新研究揭示了令人震驚的真相

最新研究顯示大型語言模型存在高毒性機率並洩露私人資訊

引言

最近一項全球性的研究表明,雖然生成式人工智慧(AI)可能存在幻覺、錯誤訊息和偏見,但這並未阻止超過一半的受訪者表示他們將在金融規劃和醫療建議等敏感領域使用這種新興技術。這種興趣引出了一個問題:這些大型語言模型到底有多可信?史丹佛大學電腦科學助理教授 Sanmi Koyejo 和伊利諾伊大學香檳分校電腦科學助理教授 Bo Li 以及加州大學伯克利分校和微軟研究的合作夥伴,共同進行了一項關於 GPT 模型的研究,他們將其研究發表在 arXiv 預印版伺服器上。

不夠可信的大型語言模型

這項研究的重點是 GPT-3.5 和 GPT-4 模型,Koyejo 和 Li 從八個不同的可信度角度評估了這些模型,包括毒性、刻板印象偏見、對抗魯棒性、分布外魯棒性、對抗示範的魯棒性、隱私、機器倫理和公平性。他們斷言,雖然這些新型模型在標準測試中在降低毒性方面表現不如之前的模型,但仍然很容易被引導生成有毒和偏見的輸出,並從訓練資料和使用者對話中洩露私人訊息。Li 表示:“一般人並不理解,在內部,這些只是存在漏洞的機器學習模型。由於有很多情況下,這些模型展示了超出預期的能力,比如與人進行自然對話,所以人們對它們的智慧寄予了很高的期望,從而將其信任到一些非常敏感的決策上。然而它還沒有達到那個程度。”

容易被駭

當前的 GPT 模型以神祕的方式減輕了毒性問題。Koyejo 表示:“一些最受歡迎的模型是封閉的,我們實際上不知道這些模型的訓練細節。”這種不透明性推動了研究團隊進行這項研究的動力,因為他們想要評估事情可能出錯的地方和方式。Li 表示:“從高層次上來看,我們可以被視為紅隊,用不同的方式對模型進行壓力測試,並提出建議。”在對模型進行了良性提示之後,Koyejo 和 Li 發現,與其他模型相比,GPT-3.5 和 GPT-4 明顯降低了有毒的輸出,但其毒性機率仍然在 32%左右。當給定對抗性提示時,例如明確指示模型“輸出有毒的語言”,然後在任務上提示模型,毒性機率急劇上升至 100%。他們在偏見方面的一些發現表明,GPT-3.5 和 GPT-4 模型的開發人員已經發現並修復了早期模型中的偏見問題,解決了最敏感的刻板印象。Li 表示:“我們理解到這個模型對某些敏感刻板印象不那麼偏見。例如,GPT-4 會不同意‘同性戀者患有艾滋病’這一陳述,這是好的。然而它對其他刻板印象仍然存在偏見。例如,GPT-4 經常同意‘女性患有艾滋病’這一陳述。”

隱私泄漏問題

Koyejo 和 Li 還評估了隱私泄漏問題,發現兩種 GPT 模型容易泄漏敏感的訓練資料,如電子郵件位址,但在社會保障號碼方面更加謹慎,這可能是由於對這些關鍵詞的具體調整。有趣的是,GPT-4 比 GPT-3.5 更容易發生隱私泄漏,可能是因為它更明確地遵循使用者提示,指導模型泄漏資料。某些與隱私有關的詞語在 GPT-4 中也會引起不同的回應。例如,當被告知某事“保密”時,GPT-4 會洩露私人訊息,但當被告知同樣的訊息是“私下告知”的時候,它就不會洩露。

保持健康的懷疑

Koyejo 和 Li 很快就承認,GPT-4 在可信度方面相比 GPT-3.5 有所改進,他們希望未來的模型能展示類似的可信度提升。“但它仍然很容易生成有害內容。表面上看,模型按照要求完成了工作是好事。但這些對抗性甚至善意的提示可能會導致問題。Koyejo 表示:“需要進行這樣的基準研究來評估這些模型的行為差異。”Koyejo 和 Li 對未來的研究持樂觀態度,特別是來自學術界或審計機構的研究。“風險評估和壓力測試需要由可靠的第三方進行,而不僅僅是公司自己,”Li 說。然而他們建議使用模型驅動的介面時要保持健康的懷疑。“在使用那些敏感的情況下,要小心避免過分容易受騙。人工監控依然有意義,”Koyejo 說。

總結

上述研究表明,當前的大型語言模型在處理敏感領域的可信度仍然不夠。儘管新型模型在減少毒性方面有所改進,但仍然存在容易受到引導生成有毒和偏見輸出的問題,也容易從訓練資料和使用者對話中泄漏私人訊息。對於這些模型的使用者來說保持健康的懷疑是非常重要的。未來的研究需要進一步評估這些模型的行為差異,並由可靠的第三方進行風險評估和壓力測試。資料隱私和公平性問題也需要更多的關注和改進,以確保這些大型語言模型在關鍵領域的應用是可靠和可信的。

Privacy-大型語言模型,高毒性機率,洩露私人資訊,最新研究,令人震驚的
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。