理解資料集背後的人才能構建可靠的 AI 模型

研究顯示建立可靠的 AI 模型需要理解背後的人員大資料與人類背景間的聯動在社交媒體中應用複雜的算法和人工智慧以檢測冒犯行為是一種日益普遍的現象。這些算法和人工智慧系統都依賴於資料來學習什麼是冒犯的。但是資料標註者的背景對他們的決策有多大的影響呢？密歇根大學資訊學院的助理教授大衛·尤爾根斯和博士候選人 .... (往下繼續閱讀)

by 江塵
2023/8/9
6 分鐘閱讀時間

A- A A+

文章目錄

研究顯示建立可靠的 AI 模型需要理解背後的人員

大資料與人類背景間的聯動

在社交媒體中應用複雜的算法和人工智慧以檢測冒犯行為是一種日益普遍的現象。這些算法和人工智慧系統都依賴於資料來學習什麼是冒犯的。但是資料標註者的背景對他們的決策有多大的影響呢？密歇根大學資訊學院的助理教授大衛·尤爾根斯和博士候選人潔欣·裴發現，資料標註者的背景非常重要。尤爾根斯說：“標註者並不是可以互換的。他們的人口統計訊息、生活經歷和背景都會對他們對資料的標註方式產生影響。我們的研究表明，理解標註者的背景並從人群中收集標註可以減少資料集存在的偏見。”

資料標註者與 AI 模型間的聯動

透過對 6000 條 Reddit 評論的分析，這項研究結果顯示，標註者對禮貌和冒犯性的信仰和決策對於標記每天我們看到的線上內容的學習模型具有影響力。不同人群對於禮貌的評價可能在其他人群中被評為不禮貌。裴說：“所有的 AI 系統都使用這種型別的資料，我們的研究有助於強調誰在標註資料的重要性。當只有一個人群的人標注資料時，得到的 AI 系統可能不代表平均觀點。” 研究希望能更好地理解標註者身份的不同之處以及他們的經歷如何影響他們的決策。以前的研究只關注單一身份的一個方面，比如性別。他們希望幫助 AI 模型更好地模擬所有人的信仰和觀點。研究結果表明： 1. 雖然一些現有的研究表明男性和女性對於有害語言的評分可能存在不同，但他們的研究沒有找到男性和女性之間的統計顯著差異。然而非二元性別身份的參與者對於訊息的評分往往比認為自己是男性和女性的人低。 2. 60 歲以上的參與者對於冒犯性得分的感知較中年參與者更高。 3. 研究發現種族間對於冒犯性評分存在顯著差異。黑人參與者對於相同的評論給出的冒犯程度要比其他種族群體高得多。從這個意義上說，只由白人標註的資料訓練出的分類器可能會對黑人和亞洲人的評論冒犯程度估計不足。 4. 就標註者的教育程度而言，沒有找到顯著的差異。

建立平衡的資料集

根據這些結果，尤爾根斯和裴建立了名為 POPQUORN（Potato-Prolific dataset for Question Answering, Offensiveness, text Rewriting and politeness rating with demographic Nuance）的資料集，為社交媒體和人工智慧公司提供了一個探索考慮交集觀點和信仰的模型的機會。尤爾根斯表示：“像 ChatGPT 這樣的系統越來越多地被人們用於日常任務，但我們正在灌輸這些受訓模型的價值觀是誰的？如果我們繼續偏向於只採集代表性樣本而不考慮差異，我們會持續邊緣化特定的人群。” 裴表示 POPQUORN 有助於確保每個人都擁有符合他們信仰和背景的公平系統。這項研究已經發表在 arXiv 預印本服務上，為 AI 和社交媒體公司提供了一個為包容多元觀點和信仰而設計的模型的機會。

結論與建議

這項研究提醒我們，建立可靠的 AI 模型需要更深入地理解資料背後的人員。資料標註者的背景和經歷對他們對資料的標注方式具有重要影響，從而影響了應用這些模型的系統對冒犯行為的檢測和判斷。在設計 AI 模型時，我們應該努力確保資料標註者的背景多元化，並從各種不同的人口統計群體中收集標註。這樣可以更好地反映社會的多元觀點。而對於社交媒體和人工智慧公司，POPQUORN 資料集提供了一個為考慮不同信仰和背景的模型的機會。透過使用這樣的資料集，他們可以建立更加公平的系統，確保不同群體的觀點都可以被充分納入模型的訓練中。理解資料標註者的背景和經歷以及建立平衡的資料集，將有助於建立更加可靠和公平的 AI 模型，促進社會的多元發展。

Datascientist-資料集,人才,AI 模型,可靠

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集