市場觀察

MIT、Cohere 等人合作,推出追蹤篩選 AI 取證資料集的平臺

MIT 等 11 所機構推出資料溯源平臺應對 AI 領域的資料透明度危機近日來自麻省理工學院(MIT)、Cohere for AI 以及其他 11 個機構的研究人員共同推出了資料溯源平臺,旨在應對 AI 領域的資料透明度危機。這個平臺對近 2000 個最常用的微調資料集進行了審計和追蹤,這些資料集一 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

MIT、Cohere 等人合作,推出追蹤篩選 AI 取證資料集的平臺

MIT 等 11 所機構推出資料溯源平臺應對 AI 領域的資料透明度危機

近日來自麻省理工學院(MIT)、Cohere for AI 以及其他 11 個機構的研究人員共同推出了資料溯源平臺,旨在應對 AI 領域的資料透明度危機。這個平臺對近 2000 個最常用的微調資料集進行了審計和追蹤,這些資料集一共被下載了數千萬次,是許多自然語言處理(NLP)領域突破的“基石”,根據來自 MIT Media Lab 的博士候選人 Shayne Longpre 和 Cohere for AI 的負責人 Sara Hooker 的訊息。

資料集追溯的重要性

研究人員在一份名爲“資料溯源計劃:AI 資料集授權和歸屬的大規模審計”的論文中指出:“越來越多被廣泛使用的資料集合被視爲單體,而非一系列資料源的淵源,經過爬取(或模型生成)、組織和注釋,通常還會有多次轉包(和重新授權),連續的從業者進行處理。 對於正確歸屬這一關鍵工作的投入因現代資料收集的規模(從而帶來的確權設定困境)和增加的版權監管而減少,這些因素共同導致了較少的訊息表格、訓練來源的非披露,最終導致對訓練資料的理解缺失。這種缺乏理解可能導致訓練資料和測試資料之間的資料泄漏,暴露個人身份訊息(PII),出現意外的偏見或行爲,這總體上會導致模型的質量低於預期。除了這些實際挑戰,訊息缺口和檔案負債還會帶來重大的道德和法律風險。例如,模型發布似乎違反了資料使用條款。由於在資料上訓練模型既昂貴又難以逆轉,這些風險和挑戰並不容易解決。”

資料集的審查和篩選工具

爲了使這些訊息實用和易於獲取,研究人員還開發了一個互動式平臺,即資料溯源瀏覽器,開發人員可以利用這個平臺來追蹤和篩選數千個資料集以滿足法律和倫理要求,學者和新聞記者可以研究熱門 AI 資料集的構成和資料淵源。

2023 年,訓練資料集受到了審視

VentureBeat 曾深入報道過有關資料溯源和訓練資料集透明度的問題:

  • 今年 3 月,Lightning AI 執行長 William Falcon 將 OpenAI 的 GPT-4 論文稱爲“僞裝成研究”。許多人認爲該報告主要因爲未提供更多細節而令人關注。在一節名爲“技術報告的範圍和約束”的部分中,報告指出:“鑑於競爭環境和 GPT-4 等大規模模型的安全影響,本報告未提供有關體系結構(包括模型大小)、硬體、訓練計算、資料集構建、訓練方法或類似內容的進一步細節。”
  • 今年 9 月,我們深入探討了生成式 AI 訓練資料中潛在的版權問題。分布式 AI 研究所(DAIR)的研究主任 Alex Hanna 博士告訴 VentureBeat,過去一年生成式 AI 的迅猛發展已經成爲處理訓練大型語言和傳播模型所需資料的一個令人警覺的時刻,其中包括大量未經同意收集的受版權保護的內容。

VentureBeat 的使命是成爲技術決策者獲取有關企業技術變革的知識和進行交易的數位廣場。理解我們的簡報。

AI 資料取證平臺-MIT,Cohere,追蹤篩選,AI,取證,資料集,平臺
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。