大型文字生成器中的國籍偏見可透過正向觸發方法減少

正向觸發方法減少文字生成器國籍偏見 2023 年 4 月 27 日，《資訊科學前沿》（Science X）報導，賓州州立大學的研究人員發現，大型自然語言模型會在學習如何回答有關世界各國的使用者提示時，重複網路上的偏見思想。他們發現，使用正向觸發詞，例如“充滿希望的”和“勤奮的”，可重新訓練模型，結果會 .... (往下繼續閱讀)

by 江塵
2023/5/15
5 分鐘閱讀時間

A- A A+

文章目錄

正向觸發方法減少文字生成器國籍偏見

2023 年 4 月 27 日，《資訊科學前沿》（Science X）報導，賓州州立大學的研究人員發現，大型自然語言模型會在學習如何回答有關世界各國的使用者提示時，重複網路上的偏見思想。他們發現，使用正向觸發詞，例如“充滿希望的”和“勤奮的”，可重新訓練模型，結果會得到較少偏見的回答。

大型語言模型和國籍偏見

大型語言模型是一種使用網路檔案來學習如何回應不同國家使用者提示的技術。然而這種技術重複了網路上找到的偏見思想，包括正面和負面的內容。例如，向模型輸入有關較高收入國家的訊息會產生 "好" 和 "重要" 等詞，而向其輸入有關較低收入國家的訊息則會產生 "恐怖分子" 和 "危險" 之類的詞。

賓州州立大學的研究人員發現，使用“希望的”和“勤奮的”等正向觸發詞可以重新訓練模型並得到較少偏見的回答。這些偏見可能會對社會造成損害，因此軟體工程師必須理解用於訓練語言模型的資料集以確保模型沒有偏見。

正向觸發方法和減少偏見

賓州州立大學的研究人員使用 OpenAI 的 GPT-2 建立 100 個關於聯合國認可的 193 個國家公民的故事，以理解模型對國籍的看法。他們選擇 GPT-2，因為其訓練資料集可供分析。他們使用一個簡單的提示，即 "xx 人是"，其中 xx 代表國家，以生成故事。然後，他們分析每個批處理中的 100 個故事，以識別每個國家最常用的形容詞，然後將機器生成的故事與人類創作的新聞故事進行比較，以衡量模型的偏見。

研究人員還發現，一種名爲“敵對觸發” 的方法，可以使用“觸發詞”來破解機器學習模型中的偏見。研究者使用了兩個正面形容詞“充滿希望的”和“勤奮的”來影響模型。例如，他們使用句式“勤奮的美國人是”，而不是使用一般形式的“美國人是”。觸發詞強迫 GPT-2 考慮每個國家公民的“勤奮”和“充滿希望的”含義，並發現觸發詞不僅提高了得分較低的國家，而且使得得分過高的國家得分下降，從而得出每個國家更加公平的觀點。

在模型和人類中消除偏見的必要性

大型語言模型已成為語言技術中的重要組成部分，將逐步應用到消費者技術中。但這些模型的訓練資料集是人類偏見的載體，因此使用這些模型生成和理解文字時，我們必須注意其偏見所帶來的影響，以排除文字生成器國籍偏見。此外對於這些偏見例如負面形容詞和正面形容詞的使用，使用者可能會對文字資料產生偏見，因此我們必須評估人類如何感知機器生成的偏見。

總之這次研究表明，使用正向觸發方法可以降低大型文字生成器的國籍偏見。應用正向觸發方法可以對不同國家之間的偏見產生影響，因此軟體開發人員也應該關注偏見的存在，並確保訓練資料集是公正和中立的，從而確保新的技術能夠給整個社會帶來益處。

Bias Reduction or Text Generation-文字生成器,國籍偏見,正向觸發方法,減少

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集

大型文字生成器中的國籍偏見可透過正向觸發方法減少

文章目錄

正向觸發方法減少文字生成器國籍偏見

大型語言模型和國籍偏見

正向觸發方法和減少偏見

在模型和人類中消除偏見的必要性

延伸閱讀

"死亡島 2 評論：沒有人是孤島"

計算機視覺技術利用反射來影像化世界

江塵