元深度學習發布資料集，檢驗電腦視覺模型的偏見

關於 FACET 資料集的公平性評估背景近年來隨著人工智慧技術的迅速發展，尤其是在電腦視覺領域，對於模型是否存在偏見的擔憂越來越大。這些偏見可能根植於資料集的不平衡性，或者是機器學習算法的設計缺陷。由於這些偏見可能對社會造成嚴重的影響，各界對公平性評估的需求逐步增加。Meta 釋放 FACET 資料 .... (往下繼續閱讀)

by 程宇肖
2023/8/31
6 分鐘閱讀時間

A- A A+

文章目錄

關於 FACET 資料集的公平性評估

背景

近年來隨著人工智慧技術的迅速發展，尤其是在電腦視覺領域，對於模型是否存在偏見的擔憂越來越大。這些偏見可能根植於資料集的不平衡性，或者是機器學習算法的設計缺陷。由於這些偏見可能對社會造成嚴重的影響，各界對公平性評估的需求逐步增加。

Meta 釋放 FACET 資料集

繼過去釋放用於檢測電腦視覺和音訊學習模型中的年齡、性別和膚色歧視的資料集之後，Meta 今天釋放了一個新的人工智慧基準測試資料集，名為 FACET（FAirness in Computer Vision EvaluaTion）。該資料集由 32,000 張帶有人為標註的照片組成，其中標註有 50,000 個人的訊息。FACET 不僅包含與職業和活動相關的類別，如“籃球運動員”、“DJ”和“醫生”，還包括人口統計學和外在特徵等，能夠對這些類別的偏見進行“深入”評估。

偏見檢測資料集的重要性

過去已經開展了許多針對電腦視覺模型是否偏見的研究，並且往往結果顯示它們確實存在偏見。然而 Meta 發布的 FACET 資料集被稱為比以前的任何偏見檢測資料集都更為全面，能夠回答諸如“當人們的認知性別特徵更具有男性特徵時，模型是否更擅長將人分類為滑板運動員？”等問題。然而我們需要警惕的是，FACET 資料集的建立方式可能存在問題以及 Meta 公司過去的聲譽也可能影響人們對其資料集的信任度。

對於資料集建立過程的疑問

FACET 資料集是由以“訓練專家”為源的標註者團隊標註的，這些標註者來自多個地理區域，包括北美（美國）、拉丁美洲（哥倫比亞）、中東（埃及）、非洲（肯亞）、東南亞（菲律賓）和東亞（臺灣）。然而我們不清楚 Meta 公司是如何招募這些標註者團隊的以及他們的工資待遇。過去和現在在註釋資料集的標註者往往來自發展中國家，收入遠低於美國的最低工資。

註釋者報酬和公平性問題

最近，《華盛頓郵報》報導了 Scale AI 這樣一家大型資金豐富的標註公司，向工人支付極低的報酬，經常延遲或扣留工資，而且給工人提供的申訴渠道很少。因此我們需要關注 FACET 資料集的標註者們是否獲得了合理的報酬和工作條件。

FACET 資料集的應用和不足之處

遺憾的是，在當前的資料集中，許多職業的描述可能已經過時，因為在 COVID-19 大流行期間，大多數醫生和護士都需要佩戴個人防護裝備，這與以往不同。在 FACET 資料集中，這些照片缺乏反映現實世界中職業變化的特性。此外 Meta 也承認 FACET 可能無法充分捕捉到現實世界中的概念和人口統計特徵。他們還提到，對於資料集中可能包含的令人嫌惡內容，使用者可以進行標記，並在發現時進行刪除。

結論與建議

FACET 資料集為研究人員提供了一個評估 AI 模型公平性的基準。然而我們需要謹慎對待該資料集的建立方式和 Meta 公司的聲譽。另外我們還需要關注標註者們的報酬和公平待遇的問題。對於開發人員和研究人員而言，我們建議在使用 FACET 資料集時要謹慎運用，並對其結果持有懷疑態度。在使用這些公平性評估工具時，我們應該不斷反思資料集的建立方式，縮小存在的偏見。同時政府和學術界也應該加固對 AI 算法的監管，以確保 AI 技術在發展過程中不會對特定群體造成不公平的影響。最後該資料集的釋放為整個 AI 社區提供了商機，但我們應該將其視為終點，而是作為開展更深入探索和討論的起點。我們應該透過持續關注 AI 背後的價值觀和道德問題，來指導和引領這項技術的發展。

AlgorithmicBias-深度學習,資料集,電腦視覺模型,偏見

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集