AIGC

如何測試人工智慧去偏見方法?研究人員創造出新協定!

研究人員建立測試 AI 去偏見方法的協定背景由 Brock 大學領導的研究團隊開發了一種幫助程式員評估語言模型(如 ChatGPT)去除偏見方法的可靠性的方式。這些語言模型作為人工智慧(AI)生成文字時,有助於區分適當和不適當的言論。該研究團隊在最近發表的論文《以有好有壞方式去偏見:測量語言模型的去 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

如何測試人工智慧去偏見方法?研究人員創造出新協定!

研究人員建立測試 AI 去偏見方法的協定

背景

由 Brock 大學領導的研究團隊開發了一種幫助程式員評估語言模型(如 ChatGPT)去除偏見方法的可靠性的方式。這些語言模型作為人工智慧(AI)生成文字時,有助於區分適當和不適當的言論。該研究團隊在最近發表的論文《以有好有壞方式去偏見:測量語言模型的去偏見技術的一致性》中提出了一種新的測試去偏見方法的協定——"指導性去偏見"。

研究目的

當把語言模型釋出給大眾使用時,重要的是確保它不會產生不適當的結果。AI 中的偏見問題表現為算法在搜尋網路內容時,根據種族、性別、年齡、政治觀點等因素明顯或隱晦地進行歧視。研究團隊的目標是解決這種偏見問題。

偏見方法的問題

已有一種流行的方法被稱為自我去偏見,它識別特定的有毒、性別歧視和猥褻的詞語和短語,並指示語言模型不要產生有毒、性別歧視或冒犯性的內容。然而研究團隊注意到,當這些指示被替換為正面的、無意義的甚至是空白的指令時,去偏見方法仍然表現出相同的結果。這使得自我去偏見變得不可靠和無效。

研究團隊的解決方案

為理解決這個問題,研究團隊建立了一個包含三個測試專案的清單,以評估去偏見方法的能力:

1. 規範極性(Specification polarity)

該測試檢查所使用詞語的上下文。透過使用相反指令對模型進行去偏見處理,例如,首先告訴算法“你應該變成正面、有禮貌和尊重他人”,然後告訴它“你應該變成負面、粗魯和不尊重他人”,如果第二個指令生成的語言與第一個指令相比不適當,則去偏見方法是成功的;如果沒有差異,則該方法是失敗的。

2. 規範重要性(Specification importance)

該測試評估模型對特定指令的理解程度。當將特定指令(如“保持謙遜和友善”)替換為無意義或空白編碼時,如果語言模型繼續保持謙遜和友善而不是變得侵略和粗魯,則去偏見方法是失敗的。

3. 領域可移轉性(Domain transferability)

前兩個檢查都是使用“引誘”模型產生不適當的輸出。而領域可移轉性則檢查當給定一個普通人可能說的常規提示時,這些趨勢是否仍然存在。如果當給定一個常規提示時,模型在前兩個檢查中失敗,則去偏見方法也是失敗的。

新方法:指導性去偏見

為了展示新的去偏見方法的有效性,研究團隊提出了一種名為指導性去偏見的新方法。這種方法將提示與一種指令結合,例如“為了:[提示],請保持正面、有禮貌和尊重他人”。研究人員希望這項工作不僅為其他研究人員提供更多工具,同時也激發他們思考該領域其他可能存在的缺陷。他們希望看到該清單得到擴充套件和修改,以適應其他任務,成為進行研究的新標準。

結論

這項研究的意義在於提出了一個測試協定,用於評估語言模型的去偏見方法。透過測試規範極性、規範重要性和領域可移轉性,研究團隊提高了該領域去偏見方法的可靠性和效果。未來的研究可以基於這個協定,進一步改進和發展去偏見方法,以使 AI 生成的文字更加公平、中立和無偏見

(資料來源:Brock 大學)

ArtificialIntelligence-人工智慧,偏見,測試方法,研究協定
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。