
研究人員建立測試 AI 去偏見方法的協定
背景
由 Brock 大學領導的研究團隊開發了一種幫助程式員評估語言模型(如 ChatGPT)去除偏見方法的可靠性的方式。這些語言模型作為人工智慧(AI)生成文字時,有助於區分適當和不適當的言論。該研究團隊在最近發表的論文《以有好有壞方式去偏見:測量語言模型的去偏見技術的一致性》中提出了一種新的測試去偏見方法的協定——"指導性去偏見"。
研究目的
當把語言模型釋出給大眾使用時,重要的是確保它不會產生不適當的結果。AI 中的偏見問題表現為算法在搜尋網路內容時,根據種族、性別、年齡、政治觀點等因素明顯或隱晦地進行歧視。研究團隊的目標是解決這種偏見問題。
去偏見方法的問題
已有一種流行的方法被稱為自我去偏見,它識別特定的有毒、性別歧視和猥褻的詞語和短語,並指示語言模型不要產生有毒、性別歧視或冒犯性的內容。然而研究團隊注意到,當這些指示被替換為正面的、無意義的甚至是空白的指令時,去偏見方法仍然表現出相同的結果。這使得自我去偏見變得不可靠和無效。
研究團隊的解決方案
為理解決這個問題,研究團隊建立了一個包含三個測試專案的清單,以評估去偏見方法的能力:
1. 規範極性(Specification polarity)
該測試檢查所使用詞語的上下文。透過使用相反指令對模型進行去偏見處理,例如,首先告訴算法“你應該變成正面、有禮貌和尊重他人”,然後告訴它“你應該變成負面、粗魯和不尊重他人”,如果第二個指令生成的語言與第一個指令相比不適當,則去偏見方法是成功的;如果沒有差異,則該方法是失敗的。
2. 規範重要性(Specification importance)
該測試評估模型對特定指令的理解程度。當將特定指令(如“保持謙遜和友善”)替換為無意義或空白編碼時,如果語言模型繼續保持謙遜和友善而不是變得侵略和粗魯,則去偏見方法是失敗的。
3. 領域可移轉性(Domain transferability)
前兩個檢查都是使用“引誘”模型產生不適當的輸出。而領域可移轉性則檢查當給定一個普通人可能說的常規提示時,這些趨勢是否仍然存在。如果當給定一個常規提示時,模型在前兩個檢查中失敗,則去偏見方法也是失敗的。
新方法:指導性去偏見
為了展示新的去偏見方法的有效性,研究團隊提出了一種名為指導性去偏見的新方法。這種方法將提示與一種指令結合,例如“為了:[提示],請保持正面、有禮貌和尊重他人”。研究人員希望這項工作不僅為其他研究人員提供更多工具,同時也激發他們思考該領域其他可能存在的缺陷。他們希望看到該清單得到擴充套件和修改,以適應其他任務,成為進行研究的新標準。
結論
這項研究的意義在於提出了一個測試協定,用於評估語言模型的去偏見方法。透過測試規範極性、規範重要性和領域可移轉性,研究團隊提高了該領域去偏見方法的可靠性和效果。未來的研究可以基於這個協定,進一步改進和發展去偏見方法,以使 AI 生成的文字更加公平、中立和無偏見。
(資料來源:Brock 大學)
延伸閱讀
- 加州新 AI 法案出爐,SB 1047 作者再推出改革措施!
- 《超級瑪利歐成為 AI 基準測試的新標準!你絕對想不到的理由》
- Google 推出 SpeciesNet:專為識別野生動物而設的人工智慧模型!
- 安瑟普提克獲得 35 億美元巨額資金 瞄準人工智慧未來!
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- 探索 DeepSeek:你必須理解的 AI 聊天機器人應用全指南!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 未來科技:研究人員揭示如何打造變形機器人,猶如 T-1000 般神奇!
- ElevenLabs 推出全新語音轉文字模型,引領 AI 語音技術的新潮流!