理解資料背後的人，打造可靠的人工智慧模型

建立可靠的人工智慧模型需要理解資料背後的人引言社交媒體公司越來越多地使用複雜的算法和人工智慧來檢測網路上的冒犯行為。這些算法和人工智慧系統都依賴於資料，以理解什麼樣的內容是冒犯的。但是誰是資料的幕後推手，他們的背景又如何影響他們的決策呢？密歇根大學訊息學院的助理教授大衛·尤根斯（David Jurg .... (往下繼續閱讀)

by 程宇肖
2023/8/9
7 分鐘閱讀時間

A- A A+

文章目錄

建立可靠的人工智慧模型需要理解資料背後的人

引言

社交媒體公司越來越多地使用複雜的算法和人工智慧來檢測網路上的冒犯行為。這些算法和人工智慧系統都依賴於資料，以理解什麼樣的內容是冒犯的。但是誰是資料的幕後推手，他們的背景又如何影響他們的決策呢？密歇根大學訊息學院的助理教授大衛·尤根斯（David Jurgens）和博士候選人佳欣·裴（Jiaxin Pei）在一項新研究中發現，資料標註者的背景非常重要。

資料標註者的背景對模型有影響

尤根斯教授表示：“標註者並不具有可替代性。他們的人口統計學、生活經歷和背景都會影響他們對資料的標註。我們的研究表明，理解標註者的背景並從人口統計學平衡的眾包工作者池中收集標籤對於減少資料集的偏見很重要。” 他們透過對 6000 個 Reddit 評論進行分析，研究了標註者在禮貌和冒犯方面的觀點和決策對學習模型的影響。一個人口統計的一部分可能認為某種語言禮貌，而另一部分則可能認為不禮貌。裴表示：“所有的人工智慧系統都使用這種資料，我們的研究有助於強調誰在標註資料的重要性。當只有某個人口統計群體的人標註資料時，結果得到的人工智慧系統可能無法代表普遍觀點。” 他們的研究旨在更好地理解標註者身份的不同之處以及他們的經歷如何影響他們的決策。以前的研究只看到了身份的一個方面，比如性別。他們的希望是幫助人工智慧模型更好地模擬所有人的信仰和觀點。

研究結果

他們的研究結果顯示，雖然一些現有的研究表明男性和女性對毒性語言的評分可能有所不同，但他們的研究未發現男性和女性之間存在顯著的統計差異。然而具有非二元性別身份的參與者往往將訊息評為比自認為男性和女性的參與者更不冒犯。年齡超過 60 歲的人對冒犯程度的分數感知比中年參與者更高。研究發現了冒犯程度評分上的顯著種族差異。黑人參與者對相同的評論給出了比其他種族群體更高的冒犯程度評分。從這個意義上說，由白人標註的資料訓練的分類器可能會在對黑人和亞洲人的評論的冒犯程度方面系統性低估。在標註者教育方面沒有找到顯著差異。尤根斯和裴根據這些結果建立了 POPQUORN（Potato-Prolific Dataset for Question Answering, Offensiveness, text Rewriting and politeness rating with demographic Nuance）。這個資料集為社交媒體和人工智慧公司提供了一個機會，可以探索一種能夠考慮交叉方面觀點和信仰的模型。尤根斯表示：“像 ChatGPT 這樣的系統越來越多地被人們用於日常任務，但我們灌輸訓練模型的是誰的價值觀？如果我們繼續採取代表性的樣本，而不考慮差異，我們將繼續讓某些群體邊緣化。”裴表示 POPQUORN 有助於確保每個人都有符合其信仰和背景的公平系統。

結論

這項研究強調了在建立可靠的人工智慧模型時理解資料背後的人的重要性。資料標註者的人口統計特徵、生活經歷和背景都會對模型產生影響，這應該得到相應的重視。為了減少資料集的偏見，我們應該在收集標籤時盡量獲得來自不同背景的標註者的意見。只有這樣，人工智慧模型才能更加準確地模擬出不同人群的觀點和信仰。同時這項研究還提供了一個新的資料集 POPQUORN，該資料集可以幫助社交媒體和人工智慧公司開發出能夠考慮交叉觀點和信仰的模型。這將有助於確保每個人都有公平的系統，符合他們的信仰和背景。

社論和建議

這項研究引起了人們對於人工智慧模型中偏見和歧視的關注。在人工智慧技術不斷發展的同時我們應該意識到資料的背後是人的影響。我們不能忽視人的多樣性和背景對模型所產生的影響，這需要更多關於資料標註者的背景訊息的透明和公開。我們建議社交媒體和人工智慧公司在建立模型時應該更加謹慎，要多元化地考慮資料標註者的身份和背景。收集來自不同人口統計群體的標籤，以獲得更準確和公平的模型。同時我們應該支援和鼓勵更多關於資料標註者身份和背景的研究，以提升我們對人工智慧模型中偏見和歧視的理解。最後在人工智慧技術的發展和應用中，我們不應該只關注技術的進步，而忽略了倫理和社會影響。我們需要建立一個支援公平和多樣化的人工智慧生態系統，以確保每個人都能享受到公正和尊重。

人工智慧模型、資料分析、人物肖像、科技-人工智慧模型,資料分析,資料背後的人,可靠性

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集

理解資料背後的人，打造可靠的人工智慧模型

文章目錄

建立可靠的人工智慧模型需要理解資料背後的人

引言

資料標註者的背景對模型有影響

研究結果

結論

社論和建議

延伸閱讀

理解資料集背後的人才能構建可靠的 AI 模型

為什麼 AI 在藝術創作中的增長不會淘汰藝術家

程宇肖