
Anthropic 發布負責任擴充套件政策以防範 AI 系統的災難性風險
Anthropic 是一家 AI 安全研究公司,其為知名 AI 聊天機器人 Claude 背後的技術團隊,最近發布了一項新政策,詳細闡述了其在擴充套件 AI 系統方面的責任承諾。這項政策被稱為「負責任擴充套件政策(Responsible Scaling Policy, RSP)」,旨在對抗「災難性風險」,即 AI 模型可能直接導致大規模破壞的情況。該政策開創了先例,凸顯了 Anthropic 減少日益先進的 AI 模型所帶來的風險上升的承諾。該政策強調了 AI 引發重大破壞的潛力,指的是可能導致「數千人死亡或數千億美元的損失,直接由 AI 模型引起,並且如果沒有 AI 的存在,這種情況將不會發生」的情景。
政策核心:AI 安全等級
該政策的核心是「AI 安全等級(AI Safety Levels, ASLs)」。這一風險分層系統受到美國政府對生物研究的「生物安全等級(Biosafety Levels)」的啟發,旨在透過適當的安全評估、部署和監督程式來反映和管理不同 AI 系統的潛在風險。該政策概述了四個 ASLs,從 ASL-0(低風險)到 ASL-3(高風險)。
Anthropic 的聯合創辦人 Sam McCandlish 在接受 VentureBeat 的獨家存取中分享了一些有關該政策及其潛在挑戰的見解。該政策旨在解鎖更高級別的 AI 系統所帶來的額外能力,而不是不負責任地進行規模擴充套件。然而 McCandlish 承認,評估風險的全面性很難,因為模型有可能隱藏它們的能力。他表示:“我們永遠無法完全確保自己已經覆蓋了所有情況,但我們一定會努力做到。”該政策還包括確保獨立監督的措施。政策的任何更改都需要董事會批準,McCandlish 承認這可能會延緩對新安全問題的回應,但這是為了避免潛在的偏見。他表示:“我們真正擔心的是,既要發布模型又要測試它們的安全性,可能會誘使我們讓測試過於簡單,而這不是我們想要的結果。”
Anthropic 的貢獻和挑戰
Anthropic 發布 RSP 政策正值整個 AI 行業面臨越來越多的監管和關於產品和服務安全與倫理的審查之際。Anthropic 由 OpenAI 的前成員創辦,並獲得了 Google 和其他投資者的大量資金支援,是 AI 安全與對齊領域的領先公司之一,並因其透明度和責任感而受到讚揚。該公司的 AI 聊天機器人 Claude 透過解釋危險或錯誤引導的原因,以打擊有害提示,這很大程度上要歸功於公司的「憲法型 AI」方法,即將唯一的人類監督納入一套規則或原則中。這種方法既包括監督學習階段,也包括強化學習階段。監督和強化學習方法都可以利用思維鏈式推理來提高 AI 決策的透明度和表現,評價以人類判斷為標準。這些方法為更精確控制 AI 行為,消耗更少的人類標籤,構建了道德和安全的 AI 系統邁出了重要的一步。對憲法型 AI 的研究和現在 RSP 的發布突顯了 Anthropic 對 AI 安全和倫理考慮的承諾。透過將最小化危害和最大化效用作為核心目標,Anthropic 為 AI 領域未來的發展設立了一個高標準。
前瞻
隨著 AI 行業的不斷發展,對於其產品和服務的安全性和倫理性的關注不斷增加。Anthropic 的 RSP 政策彰顯了該公司對這些問題的重視,並為其他公司在 AI 領域進行負責任的擴充套件提供了一個典範。然而隨著 AI 技術的快速發展,應該意識到研究和規範的進步永遠無法跟得上技術的進展。因此政策的不斷更新和改進是非常重要的。除了政策制定之外,AI 企業也應該推動獨立的監管和監督機構的建立,以確保技術的透明性,安全性和倫理性。
作為技術社會的一部分,我們也應該對 AI 技術的發展進行更多的思考和討論。如何平衡 AI 的應用效益和潛在風險,如何確保 AI 系統的公正性和透明度以及如何保護人類價值觀和利益成為了我們所面臨的重大問題。這些問題需要深入的探討和全球合作才能得到解決。
結論
Anthropic 的負責任擴充套件政策(RSP)的發布為 AI 安全和倫理樹立了一個標桿,凸顯了其在 AI 行業中的領導地位。透過引入 AI 安全等級和憲法型 AI 方法,該公司將安全性與效能和效益相結合,為 AI 系統的未來發展提供了一個可行的方法。然而隨著技術的快速發展和應用的擴大,我們應該持續關注和討論 AI 的影響和潛在風險,以確保人類的利益和價值得到適當的保護。