
MIT 等 11 所機構推出資料溯源平臺應對 AI 領域的資料透明度危機
近日來自麻省理工學院(MIT)、Cohere for AI 以及其他 11 個機構的研究人員共同推出了資料溯源平臺,旨在應對 AI 領域的資料透明度危機。這個平臺對近 2000 個最常用的微調資料集進行了審計和追蹤,這些資料集一共被下載了數千萬次,是許多自然語言處理(NLP)領域突破的“基石”,根據來自 MIT Media Lab 的博士候選人 Shayne Longpre 和 Cohere for AI 的負責人 Sara Hooker 的訊息。
資料集追溯的重要性
研究人員在一份名爲“資料溯源計劃:AI 資料集授權和歸屬的大規模審計”的論文中指出:“越來越多被廣泛使用的資料集合被視爲單體,而非一系列資料源的淵源,經過爬取(或模型生成)、組織和注釋,通常還會有多次轉包(和重新授權),連續的從業者進行處理。 對於正確歸屬這一關鍵工作的投入因現代資料收集的規模(從而帶來的確權設定困境)和增加的版權監管而減少,這些因素共同導致了較少的訊息表格、訓練來源的非披露,最終導致對訓練資料的理解缺失。這種缺乏理解可能導致訓練資料和測試資料之間的資料泄漏,暴露個人身份訊息(PII),出現意外的偏見或行爲,這總體上會導致模型的質量低於預期。除了這些實際挑戰,訊息缺口和檔案負債還會帶來重大的道德和法律風險。例如,模型發布似乎違反了資料使用條款。由於在資料上訓練模型既昂貴又難以逆轉,這些風險和挑戰並不容易解決。”
資料集的審查和篩選工具
爲了使這些訊息實用和易於獲取,研究人員還開發了一個互動式平臺,即資料溯源瀏覽器,開發人員可以利用這個平臺來追蹤和篩選數千個資料集以滿足法律和倫理要求,學者和新聞記者可以研究熱門 AI 資料集的構成和資料淵源。
2023 年,訓練資料集受到了審視
VentureBeat 曾深入報道過有關資料溯源和訓練資料集透明度的問題:
- 今年 3 月,Lightning AI 執行長 William Falcon 將 OpenAI 的 GPT-4 論文稱爲“僞裝成研究”。許多人認爲該報告主要因爲未提供更多細節而令人關注。在一節名爲“技術報告的範圍和約束”的部分中,報告指出:“鑑於競爭環境和 GPT-4 等大規模模型的安全影響,本報告未提供有關體系結構(包括模型大小)、硬體、訓練計算、資料集構建、訓練方法或類似內容的進一步細節。”
- 今年 9 月,我們深入探討了生成式 AI 訓練資料中潛在的版權問題。分布式 AI 研究所(DAIR)的研究主任 Alex Hanna 博士告訴 VentureBeat,過去一年生成式 AI 的迅猛發展已經成爲處理訓練大型語言和傳播模型所需資料的一個令人警覺的時刻,其中包括大量未經同意收集的受版權保護的內容。
VentureBeat 的使命是成爲技術決策者獲取有關企業技術變革的知識和進行交易的數位廣場。理解我們的簡報。
延伸閱讀
- OpenAI 的創意寫作 AI 讓人想起高中文學社那個討人厭的孩子
- 亞馬遜成立新型代理 AI 團隊,將如何改變科技未來?
- 「搶先報名!TechCrunch Sessions: AI 演講者申請截止日期迫在眉睫!」
- MWC 最新報導:AI 影響力的兩極化觀點首次曝光!
- 亞馬遜新推出 Alexa+:為孩子們帶來 AI 驅動的「探索」與「故事」新功能!
- Bridgetown Research 載著 AI 助力,成功募資 1900 萬美元加速盡職調查!
- Nomagic 獲得 4400 萬美元資金,AI 驅動的機器手臂技術將改變未來!
- 全方位理解 Anthropic 的 AI:揭開 Claude 的神祕面紗!
- 微軟刪除 AI 資料中心租賃,背後原因何在?
- Perfect 獲得 2300 萬美元資金,運用 AI 革新招聘流程!