網路議題

元深度學習發布資料集,檢驗電腦視覺模型的偏見

關於 FACET 資料集的公平性評估背景近年來隨著人工智慧技術的迅速發展,尤其是在電腦視覺領域,對於模型是否存在偏見的擔憂越來越大。這些偏見可能根植於資料集的不平衡性,或者是機器學習算法的設計缺陷。由於這些偏見可能對社會造成嚴重的影響,各界對公平性評估的需求逐步增加。Meta 釋放 FACET 資料 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

元深度學習發布資料集,檢驗電腦視覺模型的偏見

關於 FACET 資料集的公平性評估

背景

近年來隨著人工智慧技術的迅速發展,尤其是在電腦視覺領域,對於模型是否存在偏見的擔憂越來越大。這些偏見可能根植於資料集的不平衡性,或者是機器學習算法的設計缺陷。由於這些偏見可能對社會造成嚴重的影響,各界對公平性評估的需求逐步增加。

Meta 釋放 FACET 資料集

繼過去釋放用於檢測電腦視覺和音訊學習模型中的年齡、性別和膚色歧視的資料集之後,Meta 今天釋放了一個新的人工智慧基準測試資料集,名為 FACET(FAirness in Computer Vision EvaluaTion)。該資料集由 32,000 張帶有人為標註的照片組成,其中標註有 50,000 個人的訊息。FACET 不僅包含與職業和活動相關的類別,如“籃球運動員”、“DJ”和“醫生”,還包括人口統計學和外在特徵等,能夠對這些類別的偏見進行“深入”評估。

偏見檢測資料集的重要性

過去已經開展了許多針對電腦視覺模型是否偏見的研究,並且往往結果顯示它們確實存在偏見。然而 Meta 發布的 FACET 資料集被稱為比以前的任何偏見檢測資料集都更為全面,能夠回答諸如“當人們的認知性別特徵更具有男性特徵時,模型是否更擅長將人分類為滑板運動員?”等問題。然而我們需要警惕的是,FACET 資料集的建立方式可能存在問題以及 Meta 公司過去的聲譽也可能影響人們對其資料集的信任度。

對於資料集建立過程的疑問

FACET 資料集是由以“訓練專家”為源的標註者團隊標註的,這些標註者來自多個地理區域,包括北美(美國)、拉丁美洲(哥倫比亞)、中東(埃及)、非洲(肯亞)、東南亞(菲律賓)和東亞(臺灣)。然而我們不清楚 Meta 公司是如何招募這些標註者團隊的以及他們的工資待遇。過去和現在在註釋資料集的標註者往往來自發展中國家,收入遠低於美國的最低工資。

註釋者報酬和公平性問題

最近,《華盛頓郵報》報導了 Scale AI 這樣一家大型資金豐富的標註公司,向工人支付極低的報酬,經常延遲或扣留工資,而且給工人提供的申訴渠道很少。因此我們需要關注 FACET 資料集的標註者們是否獲得了合理的報酬和工作條件。

FACET 資料集的應用和不足之處

遺憾的是,在當前的資料集中,許多職業的描述可能已經過時,因為在 COVID-19 大流行期間,大多數醫生和護士都需要佩戴個人防護裝備,這與以往不同。在 FACET 資料集中,這些照片缺乏反映現實世界中職業變化的特性。 此外 Meta 也承認 FACET 可能無法充分捕捉到現實世界中的概念和人口統計特徵。他們還提到,對於資料集中可能包含的令人嫌惡內容,使用者可以進行標記,並在發現時進行刪除。

結論與建議

FACET 資料集為研究人員提供了一個評估 AI 模型公平性的基準。然而我們需要謹慎對待該資料集的建立方式和 Meta 公司的聲譽。另外我們還需要關注標註者們的報酬和公平待遇的問題。 對於開發人員和研究人員而言,我們建議在使用 FACET 資料集時要謹慎運用,並對其結果持有懷疑態度。在使用這些公平性評估工具時,我們應該不斷反思資料集的建立方式,縮小存在的偏見。同時政府和學術界也應該加固對 AI 算法的監管,以確保 AI 技術在發展過程中不會對特定群體造成不公平的影響。 最後該資料集的釋放為整個 AI 社區提供了商機,但我們應該將其視為終點,而是作為開展更深入探索和討論的起點。我們應該透過持續關注 AI 背後的價值觀和道德問題,來指導和引領這項技術的發展。
AlgorithmicBias-深度學習,資料集,電腦視覺模型,偏見
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。