
標題:研究人員表示遺忘權法應擴充套件至生成式人工智慧
編者註:
本文已經按照 Science X 的編輯流程和政策進行審查。編者強調以下幾個屬性,同時確保內容的可信性:事實核查、預印本、可信資源、校對。
引言:
如果網際網路能夠跟拉斯維加斯著名的廣告標語背後的理念保持一致該有多好:"在拉斯維加斯發生的事情就留在拉斯維加斯"。這句由該城市旅遊局委託的標語巧妙地吸引了許多為了保持自己在美國頂級成人遊樂場的隱私活動的遊客。對於在網路上活躍的 50 億人來說這句標語就可以是:"你在網路上所做的事情,將永遠留在網路上"。
多年來,政府一直在處理網際網路隱私問題。應對一種特定的隱私侵犯問題一直都很困難:訓練網際網路學會遺忘某些有害、尷尬或錯誤的資料。近年來已經開展了一些努力,為私人個體提供了救濟的途徑,當他們的有害訊息在網路搜尋中不斷出現時。馬裏奧·科斯特哈·岡薩雷斯是一個例子,他的多年前的財務困境在搜尋他名字時總是冒出來。他將 Google 告上法庭,要求刪除舊的、不再相關的私人訊息。2014 年,歐洲法院支援他,強迫搜尋引擎刪除與傷害性資料相關的連結。這些法律被稱為遺忘權法(RTBF 法規)。
生成式人工智慧的興起引發了新的擔憂
現在隨著生成式人工智慧的爆炸性增長,人們再次對另一個與搜尋引擎無關的問題產生擔憂,這個問題可能會導致舊有的損害資料不斷重現。澳大利亞國家科學機構 Data61 業務部的研究人員警告說,大型語言模型(LLMs)可能會違反這些遺忘權法。這些研究人員在題為《大型語言模型時代的遺忘權:影響、挑戰和解決方案》的論文中表示遺忘權法僅限於搜尋引擎,不能排除 LLMs 的隱私條例。
他們認為,“與搜尋引擎使用的索引方法相比,LLMs 以完全不同的方式儲存和處理訊息。”他們發現,ChatGPT-3 等模型約 60%的訓練資料是從公共資源中提取的。此外 OpenAI 和 Google 也表示他們在 LLMs 中大量使用了 Reddit 的對話資料。因此他們認為,“LLMs 可能會記憶個人資料,這些資料可能會出現在它們的輸出中。”此外模型可能出現的"幻覺"現象——即自動輸出明顯錯誤的訊息,進一步增加了對私人使用者造成損害的風險。問題變得更加複雜,因為生成式人工智慧的資料來源很大程度上仍然未知於使用者。這種對隱私的風險也違反了其他國家頒布的法律。加利福尼亞州消費者隱私法、日本的個人訊息保護法和加拿大的消費者隱私與保護法都旨在賦予個人強制網路服務提供商刪除無根據的個人訊息的權力。
必須將遺忘權法擴充套件至生成式人工智慧
研究人員建議,這些法律應該同時適用於生成式人工智慧。他們討論了從 LLMs 中刪除個人資料的過程,例如使用 SISA(Shared, Isolated, Sliced and Aggregated)培訓和近似資料刪除的“機器取消學習”方法。與此同時 OpenAI 最近開始接受資料刪除的請求。"這項技術正在迅速發展,從而在法律領域出現了新的挑戰,"張道文說,“但是隱私作為一項基本人權的原則不應該改變,人們的權利不應該因技術進步而受到損害。”
評論:
這篇文章提出了一個非常具有關切性的問題:隨著生成式人工智慧的發展,遺忘權法是否應該擴充套件到規模巨大的語言模型?這個問題牽涉到保護個人隱私的基本原則與科技的快速發展之間的平衡。本文引用了馬裏奧·科斯特哈·岡薩雷斯的案例,他成功要求 Google 刪除舊有的、不再相關的私人訊息,並強調了遺忘權法的重要性。
作者透過引用澳大利亞國家科學機構 Data61 業務部的研究人員的觀點,展示了生成式人工智慧對隱私保護造成的新挑戰。由於這些模型的訓練資料來自於公共資源,個人資料可能被記憶並顯示在其輸出中。此外模型還可能出現幻覺般的輸出,這可能導致對個人隱私的傷害。
鑑於這些風險,作者提倡將遺忘權法擴充套件至生成式人工智慧。他們討論了從語言模型中刪除個人資料的可能方法,並引用了一些國家制定的相關法律作為支援。他們強調隨著技術的快速發展,保護隱私作為一項基本人權的原則不能改變,人們的權利不應該因技術進步而受到損害。
建議:
這篇文章引發了對生成式人工智慧與隱私保護之間關係的思考。對於政策制定者和相關領域的專家們來說這是一個需要關注的問題。他們需要思考如何在技術進步的同時確保人們的隱私得到有效保護。此外生成式人工智慧技術公司也應該加固自我監管和負責任使用技術,以確保不對使用者的隱私造成損害。
同時公眾也應該加固對隱私保護的意識,並積極行使自己的隱私權利。不僅僅是要求政府制定更加完善的隱私保護法律,還應該關注自己在網路上的個人訊息保護。這包括謹慎分享個人訊息、定期檢查和管理在網路上的資料,以確保自己的隱私得到適當的保護。