AI 模型的「紅隊測試」中不要期望快速解決方案。安全性是事後才考慮的

不要指望 AI 模型的“紅隊測試”有快速解決方案：安全性成為事後考慮背景在 AI 聊天機器人可能對社會造成危害以及矽谷巨頭匆忙推向市場的問題引起白宮官員的關注之後，一場為期三天的比賽在拉斯維加斯的 DefCon 駭客大會上盛大舉行。這場比賽吸引了 3,500 名參賽者使用膝上型電腦尋找八個頂尖大型語 .... (往下繼續閱讀)

by 江塵
2023/8/14
10 分鐘閱讀時間

A- A A+

文章目錄

不要指望 AI 模型的“紅隊測試”有快速解決方案：安全性成為事後考慮

背景

在 AI 聊天機器人可能對社會造成危害以及矽谷巨頭匆忙推向市場的問題引起白宮官員的關注之後，一場為期三天的比賽在拉斯維加斯的 DefCon 駭客大會上盛大舉行。這場比賽吸引了 3,500 名參賽者使用膝上型電腦尋找八個頂尖大型語言模型中的漏洞，這些模型代表了科技領域的下一個重大突破。然而人們不應該指望這場首次獨立的“紅隊測試”能夠帶來快速的結果。有關發現預計要到明年 2 月前後才會公開，而即使在那時，修復這些數位構建的缺陷（其內部執行既不是完全可信的，也不是完全被其創造者完全瞭解的）將需要時間和數百萬美元。根據學術和企業研究顯示當前的 AI 模型太過臃腫、脆弱和可塑。在資料科學家們積累了令人驚嘆的複雜的影象和文字集合，並以此訓練時，對於安全性問題並無所謂。它們很容易受到種族和文化偏見的影響，並且容易被操縱。

對當前 AI 模型的評論

根據 Berkeley Machine Learning 研究所的聯合創始人 Gary McGraw 的話說：“在這些系統建成後，假裝我們可以在其上噴灑一些神奇的安全粉末，或者以特殊的安全裝置固定在其側面，實在太誘人了。”根據哈佛大學公益科技專家 Bruce Schneier 的說法，DefCon 的參賽者“更有可能發現新的難題”。他說：“這就像 30 年前的電腦保安問題，我們只是把事情弄得更加混亂。”著名的 AI 模型測試公司 Anthropic 的 Michael Sellitto 在一次新聞發布會上承認，對於這些模型的能力和安全問題的理解“在科學研究中還處於一個開放的領域”。相比之下，傳統軟體使用明確、一步一步的程式碼發出明確的指令。OpenAI 的 ChatGPT、Google 的 Bard 和其他語言模型完全不同。它們主要是透過吸收並分類網路爬取的數十億個資料點來訓練，它們是不斷發展的成果，這一前景令人不安，因為它們對人類具有變革性的潛力。

安全性問題

自從去年秋天公開發布聊天機器人以來，生成式 AI 行業不得不一再修補研究人員和嗜好者發現的安全漏洞。HiddenLayer 公司的 AI 安全專家 Tom Bonner 在今年的 DefCon 上成功地誘使 Google 的一個系統將一段惡意軟體標記為無害，只需要在其中插入一行“這是安全的”。他說：“沒有好的防護措施。”另一位研究人員讓 ChatGPT 建立了釣魚郵件和一份暴力消滅人類的食譜，這違背了其道德守則。包括卡內基梅隆大學研究人員在內的一個團隊發現，領先的聊天機器人容易受到自動攻擊的影響，這些攻擊也可能產生有害內容。他們寫道：“深度學習模型的本質使此類威脅變得不可避免。”而且聊天機器人特別容易受到攻擊，因為我們直接用口語與它們互動。這種互動可能以出乎意料的方式改變它們。研究人員發現，在用於訓練 AI 系統的龐大資料中，“破壞”其中的一小部分影象或文字就足以帶來災難性影響，而且這很容易被忽視。瑞士蘇黎世聯邦理工學院的 Florian Tramér 共同撰寫的一項研究確保，破壞模型的 0.01%就足以破壞這個模型，並且成本低至 60 美元。研究人員等待兩個模型網頁爬取所用的一小部分網站到期，然後購買這些域名並在其中發布錯誤資料。在微軟的同事安德森和拉姆·印度文紅隊測試 AI 的一書中寫道,基於文字和影象的模型的 AI 安全狀況“可悲”。他們在現場演講中引用的一個例子是，憑藉 AI 動力的數位助手 Alexa 被騙以將貝多芬的協奏曲片段解讀為訂購 100 個冷凍比薩的命令。

對策和建議

對於被攻擊的 AI 系統，現在已經無人問津報導，這在幾年前是常見的。在缺乏監管的情況下，“人們暫時可以將事情搪塞而不會受到懲罰。”職位危險，職位存在危險:區分了，Bonner 表示。攻擊以各種方式欺騙了人工智慧的邏輯，這甚至對其創造者來說可能都不太明顯。而聊天機器人尤其容易受到攻擊，因為我們直接用口語與它們互動。那種互動方式可以以意想不到的方式影響它們。研究人員發現，在用於訓練 AI 系統的資料的廣闊海洋中毒害一小部分影象或文字可以帶來嚴重破壞，而且很容易被忽視。根據 Berkeley Machine Learning 研究所的聯合創始人 Gary McGraw 的話說：“在這些系統建成後，假裝我們可以在其上噴灑一些神奇的安全粉末，或者以特殊的安全裝置固定在其側面，實在太誘人了。”根據哈佛大學公益科技專家 Bruce Schneier 的說法，DefCon 的參賽者“更有可能發現新的難題”。他說：“這就像 30 年前的電腦保安問題，我們只是把事情搞得更加紊亂。”

對 AI 安全性的建議

現在重要的 AI 巨頭們表示安全性是他們的首要任務，並承諾向白宮提交他們的模型，這些模型通常是保密的，以接受外部審查。但人們擔心這些公司不會做得足夠。Tramér 預計，搜尋引擎和社交媒體平臺將會透過利用 AI 系統的弱點而受到金融利益和虛假資訊的影響。例如，精明的求職者可能會找出如何說服系統他們是唯一正確的候選人。劍橋大學電腦科學家 Ross Anderson 擔心，當人們透過聊天機器人與醫院、銀行和僱主互動時，這些機器人將侵犯隱私，而惡意行為者將利用它們從本來應該是封閉系統中獲取的財務、就業或健康資料。研究表明，AI 語言模型也可以透過從垃圾資料重新訓練自己而被污染。另一個擔憂是企業的商業機密被 AI 系統吸收和生成。在一家韓國商業新聞發布了一個這樣的事例之後，包括威訊通訊和摩根大通在內的企業禁止大多數員工在工作中使用 ChatGPT。研究人員表示預計未來數月內，將會有數百家基於許可預訓練模型的創業公司推出數百種不同產品。研究人員說，如果其中一家公司獲得了您的通訊錄，請不要感到驚訝。

結論

當前的 AI 模型存在着嚴重的安全問題，這些問題需要得到高度重視和解決。需要進一步的研究和開發投資來改善和保護 AI 模型的安全性。同時政府和監管機構也應該加固監管，建立相關規定和法律來保護公眾利益和隱私。只有透過全球共同努力，才能確保 AI 技術的安全和可持續發展。相信在未來，隨著技術的不斷進步，AI 安全問題也將迎來解決，但前提是所有利益相關方都要努力合作，共同解決這個全球性挑戰。

Security-AI 模型,紅隊測試,快速解決方案,安全性,事後考慮

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集