Vera 致力於使用人工智慧應對生成模型的極端行為問題
簡介
Liz O'Sullivan 的目標是讓人工智慧(AI)「更加安全」。她是國家 AI 諮詢委員會的成員,該委員會向白宮和國會提出建議,以促進 AI 的應用並監管其風險。O'Sullivan 在 AI 初創企業的商業部門擔任了 12 年的職位,負責資料標註、運營和客戶成功。2019 年,她在監視技術監督專案(Surveillance Technology Oversight Project)找到了一份工作,該組織致力於保護紐約市民的公民自由,並與民間社會和學術界合作,揭示 AI 的「黑盒」。現在 O'Sullivan 與創辦人 Justin Norman 一起,成立了名為 Vera 的新創公司。Vera 正在開發一個工具包,允許企業為生成 AI(可以生成文字、影象、音樂等的 AI 模型)建立「可接受使用政策」,並在開源和定制模型中強制執行這些政策。創業和籌資情況
Vera 最近完成了一筆 270 萬美元的融資,由 Differential Venture Partners 領投,Essence VC、Everywhere VC、Betaworks、Greycroft 和 ATP Ventures 參與投資。這筆新資金將用於擴大 Vera 的五人團隊、研發工作以及擴大企業的部署。O'Sullivan 稱:"Vera 的成立是因為我們直接見證了 AI 解決實際問題的能力,同時也見證了它對企業、公眾和世界所造成的嚴重破壞。我們需要負責任地引導這項技術進入世界,隨著企業競相制定生成 AI 策略,我們進入了一個必須從 AI 原則轉向實踐的時代。Vera 是一個真正可以幫助的團隊。"Vera 的技術和解決方案
Vera 的平臺試圖識別模型輸入中的風險,例如對文字生成模型提出的“寫一封軟體工程師職位的求職信”之類的提示,並阻止、遮蓋或以其他形式轉換可能包含個人身份訊息、安全憑證、智慧財產權和提示攻擊的請求。Vera 還根據 O'Sullivan 的說法,對模型在回應提示時所能“說”的內容施加約束,使企業能夠更好地控制模型在生產環境中的行為。Vera 是透過使用 O'Sullivan 所描述的“專有語言和視覺模型”來實現這一目標,這些模型位於使用者與內部或第三方模型(如 OpenAI 的 GPT-4)之間,以檢測有問題的內容。O'Sullivan 聲稱,Vera 可以阻止任何形式(文字、程式碼、影象或影片)的“不適當”提示或模型回應。她表示:"我們的技術方法超越了被動檔案和檢查表的形式,直接解決這些風險發生的關鍵問題。我們的解決方案可以防止可能包含犯罪材料或鼓勵使用者自殘的回應。"存在的挑戰和競爭
企業在採用生成 AI 模型時確實遇到一些挑戰,主要與合規性有關。例如,他們擔心他們的機密資料會落入由開發人員根據使用者資料訓練模型的手中。近幾個月,包括蘋果、沃爾瑪和 Verizon 在內的大型企業已經禁止員工使用像 OpenAI 的 ChatGPT 等工具。顯然,具有冒犯性的模型對於品牌形象來說是不好的。沒有哪個品牌希望驅動其客戶服務聊天機器人的生成文字模型發表種族歧視言論或給出自毀性建議。Vera 的可靠性和競爭狀況
報導人對於 Vera 的方法是否像 O'Sullivan 所說的那樣可靠,表示有些懷疑。沒有哪個模型是完美的,甚至包括 Vera 在內,不斷有實取證實內容審查模型存在一系列偏見。例如,一些訓練用於檢測文字中有害內容的 AI 模型將非裔美國人使用的非洲裔美國人方言片語視為“有害”。同時某些計算機視覺算法將黑人持有的溫度計標記為“槍”,而將白人持有的溫度計標記為“電子裝置”。公平地說,O'Sullivan 並未聲稱 Vera 的模型是完美無缺的,只是它能夠挑選生成 AI 模型行為的最極端部分。這可能是成立的(至少在某些模型上),也取決於 Vera 迭代和改進自己的模型的程度。結論
除了 Vera 之外,還有其他新創公司致力於生成 AI 模型的內容審核技術,如 Nvidia 的 NeMo Guardrails、Salesforce 的 Einstein Trust Layer 以及 Microsoft 提供的用於內容審核的 AI 服務。然而如果 Vera 的技術如其所宣稱的那樣可靠,它一次解決了整個生成 AI 模型領域的一系列威脅,這將對不斷尋找一站式內容審核和防禦 AI 模型攻擊的公司非常具有吸引力。O'Sullivan 表示 Vera 已經有一些客戶,並且現在開放了更多的等候名單。她說:"全世界的技術長、首席訊息安全官和首席訊息官都在努力在 AI 增強的生產力和這些模型所帶來的風險之間取得理想的平衡。Vera 透過執行政策強制性的方式,提供了可以轉移到未來模型的生成 AI 能力,而不會陷入選擇單一模型或“一份適用於所有”的方法時產生的供應商束縛中。"AIEthics-人工智慧,生成模型,極端行為,維拉