市場觀察

「Anthropic 公司的新政策對抗『災難性』AI 風險」

Anthropic 公司推出負責任擴張 AI 系統的新政策人工智慧安全及研究公司 Anthropic,是知名的 Claude 聊天機器人背後的推手,在近期發布了一項新政策,旨在詳細描述其對於負責任擴充套件 AI 系統的承諾。這項政策被稱為「負責任擴充套件政策(Responsible Scaling .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

「Anthropic 公司的新政策對抗『災難性』AI 風險」

Anthropic 公司推出負責任擴張 AI 系統的新政策

人工智慧安全及研究公司 Anthropic,是知名的 Claude 聊天機器人背後的推手,在近期發布了一項新政策,旨在詳細描述其對於負責任擴充套件 AI 系統的承諾。這項政策被稱為「負責任擴充套件政策(Responsible Scaling Policy, RSP)」,專門為減輕「災難性風險」而設計,即 AI 模型可能直接引發大規模破壞的情況。這項 RSP 政策史無前例,突顯了 Anthropic 公司減少日益進步的 AI 模型所連帶而來的風險的承諾。該政策強調了 AI 引起重大破壞的潛力,提到可能導致「數千人死亡或數千億美元損失,直接由 AI 模型引起,且在其缺席的情況下並不會發生的情境」。

政策核心:AI 安全層級

該政策的核心是 AI 安全層級(AI Safety Levels, ASLs)。這個風險分層系統靈感源自美國政府對生物研究制定的生物安全層級(Biosafety Levels),旨在透過適當的安全評估、部署和監管程式來反映和管理不同 AI 系統的潛在風險。該政策概述了四個 AI 安全層級,從 ASL-0(低風險)到 ASL-3(高風險)。

Anthropic 公司聯合創始人 Sam McCandlish 在接受 VentureBeat 獨家採訪時分享了一些政策制定的視角和潛在挑戰。該政策旨在對不同 AI 系統的潛在風險進行風險分層,儘管當前的模型可能不會帶來顯著風險,但 Anthropic 公司預見到未來 AI 可能開始産生真正的風險。他還承認,該政策並非靜態或全面的檔案,而是一個不斷演進的檔案,將根據公司的經驗和反饋進行更新和改進。該公司的目標是將競爭壓力轉化為解決關鍵安全問題,以便開發更安全、更先進的 AI 系統可以開啟更多功能,而不是魯莽地擴充套件。

然而鑒於模型可能隱藏其能力的潛在能力,McCandlish 承認全面評估風險的困難性。「我們永遠無法完全確保我們抓取到了所有問題,但我們肯定會努力做到」,他說。該政策還包括確保獨立監督的措施。政策的所有變更都需要經過董事會的批準,McCandlish 承認這可能使對新安全問題的回應變慢,但這是為了避免潛在的偏見。「我們真的擔心這樣一來,即我們既發布模型又測試其安全性,存在以易於透過測試為結果的誘惑,而這並不是我們想要的結果」,McCandlish 說。

Anthropic 公司的 AI 安全承諾

Anthropic 公司的 RSP 政策發布時正值人工智慧行業面臨對其產品和服務的安全性和道德性日益嚴格的審查和監管。Anthropic 公司由 OpenAI 的前成員創立,獲得了 Google 和其他投資者的大量資金支援,是 AI 安全和對齊領域的領導者之一,因其透明度和責任感而受到讚揚。該公司的 AI 聊天機器人 Claude 旨在透過解釋為什麼某些提示是危險或誤導性的方式來對抗有害提示。這在很大程度上是因為該公司的「憲法 AI」方法,即一套規則或原則提供唯一的人類監督。它包括監督學習階段和增強學習階段。監督學習和增強學習方法都可以利用一種思路連貫的推理方式來提高 AI 的透明度和效能,由人類進行評估。這些方法提供了一種更精確地控制 AI 行為的方式,並且需要更少的人工標籤,是制定道德和安全 AI 系統的重要進展。對於憲法 AI 的研究和現在 RSP 的推出,強調了 Anthropic 公司對 AI 安全和道德考慮的承諾。Anthropic 透過專注於最小化傷害並最大化效益,為未來在 AI 領域的發展設立了高標準。

VentureBeat 的使命是為技術決策者提供關於轉型性企業技術的知識以及進行交易。發現我們的簡報。

關鍵詞:人工智慧,Anthropic 公司,新政策災難性,AI 風險

Artificialintelligence-Anthropic 公司,新政策,災難性,AI 風險
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。