AIGC

數千名 DEF CON 駭客將攻擊生成式 AI 模型

DEF CON 駭客挑戰生成式 AI 模型：揭開安全與風險的大門背景在第 31 屆 DEF CON 駭客大會上，數千名駭客將參加 AI 村（AI Village）舉辦的挑戰，對抗全球頂尖的大型語言模型。根據美國國家標準與技術研究院（NIST）的說法，「駭客紅隊測試」指的是「一群被授權和組織起來模擬潛 .... (往下繼續閱讀)

by 程宇肖
2023/8/10
6 分鐘閱讀時間

A- A A+

文章目錄

DEF CON 駭客挑戰生成式 AI 模型：揭開安全與風險的大門

背景

在第 31 屆 DEF CON 駭客大會上，數千名駭客將參加 AI 村（AI Village）舉辦的挑戰，對抗全球頂尖的大型語言模型。根據美國國家標準與技術研究院（NIST）的說法，「駭客紅隊測試」指的是「一群被授權和組織起來模擬潛在對手進行攻擊或利用能力的人，以評估企業的安全狀態」。這是 DEF CON 首次舉辦的公開生成式 AI 紅隊活動，與«慈善智慧»（Humane Intelligence）、«SeedAI»、AI 村等組織合作舉辦。Anthropic、Cohere、Google、Hugging Face、Meta、NVIDIA、OpenAI 和穩定性等公司提供的模型將在 Scale AI 開發的評估平臺上進行測試。這一挑戰是拜登 - 哈裏斯政府在今年五月宣布的，得到了白宮科學、技術與政策辦公室（OSTP）的支援，並符合拜登 - 哈裏斯 AI 權利法案擬定藍圖和 NIST AI 風險管理框架的目標。這一挑戰也將成為國會 AI 小組和其他官員的教育計劃。

生成式 AI 模型的弱點

「駭客紅隊測試」的目標是模擬一個對手，針對正在進行紅隊測試的系統進行對手模擬和模擬。Scale AI 的安全總監 Alex Levinson 表示在這種情況下，他們試圖模擬人們可能採取的行為，並找出這些模型的弱點和工作原理。「每個公司都以不同的方式開發模型，都有它們自己的獨門祕方」，他解釋道。但是他提醒說，這個挑戰不是模型之間的競爭。「這只是一個用於識別以前不知道的事物的練習 - 比如某些不可預測的事情，我們從未想到過」。這個挑戰將提供 150 個膝上型電腦工作站以及對來自供應商的多個語言模型進行定時存取 - 在挑戰中，這些模型和 AI 公司的身份不會被公開。挑戰還提供了類似「奪旗賽」的積分系統，以促進對各種損害的測試。此外還有一個豐厚的獎品：獲得最高積分的個人將贏得一枚價值超過 40,000 美元的高階 NVIDIA GPU。

AI 公司尋求嵌入式損害的反饋

非營利組織«慈善智慧»的共同創始人 Rumman Chowdhury 在媒體簡報中表示提供模型的 AI 公司最期待的是他們將獲得的反饋，特別是有關將這些新技術應用到大規模上時產生的潛在損害和風險。Chowdhury 提到了聚焦於 AI 模型的多語言損害的挑戰：“可以想象，不僅在英語中識別各種細微區別方面建立信任和安全機制的復雜性，然後試圖將其翻譯成許多其他語言的複雜性 - 這是一個相當困難的事情」。她還指出，另一個挑戰是模型的內部一致性。「試圖建立可在各種問題上始終保持一致的防護措施非常困難」，她解釋道。

一個大規模的紅隊測試活動

AI 村的組織者在新聞稿中表示他們將邀請來自「被忽視的機構和社區」的數百名學生，成為成千上萬名首次體驗生成式 AI 紅隊測試的人之一。Scale AI 的 Levinson 表示雖然其他人曾經執行過有關模型的紅隊測試，但這次挑戰的規模以及使用了如此多的測試人員和模型，使得整個挑戰變得更加複雜。此外組織者還希望確保覆蓋了 AI 權利法案中的各種原則。「這是這次挑戰獨特之處」，他說。「我肯定還有其他 AI 活動曾經舉辦過，但它們可能非常具體，比如找到了很好的提示注入漏洞。但是關於 AI 的安全和保護方面還有更多的維度 - 這就是我們在這裡討論的內容」。由於參與者的多樣性，包括那些通常不參與生成式 AI 的開發和部署的人，這種大規模挑戰的規模以及 DEF CON 的形式都將對挑戰的成功起到關鍵作用。

ArtificialIntelligence-DEFCON,駭客,攻擊,生成式 AI 模型

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集

數千名 DEF CON 駭客將攻擊生成式 AI 模型

文章目錄

DEF CON 駭客挑戰生成式 AI 模型：揭開安全與風險的大門

背景

生成式 AI 模型的弱點

AI 公司尋求嵌入式損害的反饋

一個大規模的紅隊測試活動

延伸閱讀

人科推出升級版入門級 LLM

ChatGPT 免費使用者現已擴充套件『自訂指令』功能

程宇肖