MIT 等 11 所機構推出資料溯源平臺應對 AI 領域的資料透明度危機
近日來自麻省理工學院(MIT)、Cohere for AI 以及其他 11 個機構的研究人員共同推出了資料溯源平臺,旨在應對 AI 領域的資料透明度危機。這個平臺對近 2000 個最常用的微調資料集進行了審計和追蹤,這些資料集一共被下載了數千萬次,是許多自然語言處理(NLP)領域突破的“基石”,根據來自 MIT Media Lab 的博士候選人 Shayne Longpre 和 Cohere for AI 的負責人 Sara Hooker 的訊息。
資料集追溯的重要性
研究人員在一份名爲“資料溯源計劃:AI 資料集授權和歸屬的大規模審計”的論文中指出:“越來越多被廣泛使用的資料集合被視爲單體,而非一系列資料源的淵源,經過爬取(或模型生成)、組織和注釋,通常還會有多次轉包(和重新授權),連續的從業者進行處理。 對於正確歸屬這一關鍵工作的投入因現代資料收集的規模(從而帶來的確權設定困境)和增加的版權監管而減少,這些因素共同導致了較少的訊息表格、訓練來源的非披露,最終導致對訓練資料的理解缺失。這種缺乏理解可能導致訓練資料和測試資料之間的資料泄漏,暴露個人身份訊息(PII),出現意外的偏見或行爲,這總體上會導致模型的質量低於預期。除了這些實際挑戰,訊息缺口和檔案負債還會帶來重大的道德和法律風險。例如,模型發布似乎違反了資料使用條款。由於在資料上訓練模型既昂貴又難以逆轉,這些風險和挑戰並不容易解決。”
資料集的審查和篩選工具
爲了使這些訊息實用和易於獲取,研究人員還開發了一個互動式平臺,即資料溯源瀏覽器,開發人員可以利用這個平臺來追蹤和篩選數千個資料集以滿足法律和倫理要求,學者和新聞記者可以研究熱門 AI 資料集的構成和資料淵源。
2023 年,訓練資料集受到了審視
VentureBeat 曾深入報道過有關資料溯源和訓練資料集透明度的問題:
- 今年 3 月,Lightning AI 執行長 William Falcon 將 OpenAI 的 GPT-4 論文稱爲“僞裝成研究”。許多人認爲該報告主要因爲未提供更多細節而令人關注。在一節名爲“技術報告的範圍和約束”的部分中,報告指出:“鑑於競爭環境和 GPT-4 等大規模模型的安全影響,本報告未提供有關體系結構(包括模型大小)、硬體、訓練計算、資料集構建、訓練方法或類似內容的進一步細節。”
- 今年 9 月,我們深入探討了生成式 AI 訓練資料中潛在的版權問題。分布式 AI 研究所(DAIR)的研究主任 Alex Hanna 博士告訴 VentureBeat,過去一年生成式 AI 的迅猛發展已經成爲處理訓練大型語言和傳播模型所需資料的一個令人警覺的時刻,其中包括大量未經同意收集的受版權保護的內容。
VentureBeat 的使命是成爲技術決策者獲取有關企業技術變革的知識和進行交易的數位廣場。理解我們的簡報。
延伸閱讀
- 以色列新創公司 Panax 籌集了 1000 萬美元的 A 輪融資,致力於其 AI 驅動的現金流管理平臺
- 資料科技公司 Daloopa 開發 AI 以自動化財務分析工作
- 今年的 Met Gala 主題是 AI 極深假裝
- Y Combinator 幫助醫療記錄 AI 新創 Hona 募得 300 萬美元 的故事
- Dropbox、Figma CEO 支援 Lamini:新創公司打造企業專用生成式人工智慧平臺
- Pinterest AI 打造的拼貼圖比單張針腳更吸睛
- Atlassian 推出新的 AI 同事 Rovo
- 三星的營運利潤飆升 930%,AI 動能帶動記憶晶片需求
- Google Gemini:全新生成式人工智慧平臺的全方位解析
- 美國國家標準技術研究所推出新平臺評估生成式人工智慧