AI2 釋出迄今最大的開放資料集,為訓練語言模型鋪路
AI2(Allen Institute for AI)旨在打破現有的趨勢,釋出全新且龐大的文字資料集 Dolma,該資料集可以免費使用並且公開查閱。Dolma 將成為 AI2 研究團隊計劃中開放語言模型(OLMo)的基礎(Dolma 縮寫為“用於滿足 OLMo 食慾的資料”)。
AI2 研究團隊表示既然該模型的使用和修改將向 AI 研究社區開放,那麼建立模型的資料集也應該如此。這是 AI2 首次釋出與 OLMo 相關的“資料成果”,在其部落格文章中,AI2 的 Luca Soldaini 解釋了使用該資料集的不同來源以及團隊在處理過程中的選擇和合理性(該團隊在文章一開始就指出,“還有一份更全面的論文正在製作中。”)。
儘管 OpenAI 和 Meta 等公司公開了一些用於構建語言模型的資料集的重要統計資料,但其中很多訊息都被視為專有。除了知名的阻礙審查及改進的後果之外,還有可能是由於資料的獲取方式在道德上或法律上存在問題,例如: 未經授權使用了許多作家的書籍。成千上萬的作者簽署信件,敦促 AI 製造商停止盜版行為。
AI2 所提供的圖表清晰地展示了最大和最新的模型僅提供了研究人員對特定資料集可能想理解的一些訊息。其中一個問題是:都刪去了哪些訊息以及為什麼刪除那些訊息?何謂高質量和低質量的文字?個人訊息是否已經適當地刪除?下圖展示了不同資料集的開放性。
當然在充滿競爭的 AI 領域中,這些公司有權保守其模型的訓練過程的祕密。但對於這些公司之外的研究人員而言,這使得這些資料集和模型更加不透明且難以研究或複製。AI2 的 Dolma 旨在成為這些資料集的反面,包括所有來源和過程的公開檔案。AI2 正在開發一個針對科學領域最佳化的大型語言模型。
AI2 並非最先嘗試開放資料集,但它無疑是迄今最大的一個(30 億令牌,這是 AI 的內部量度),而且他們聲稱它是使用和許可權方面最簡單的。它使用“ImpACT License for medium-risk artifacts”,您可以在這裡檢視詳細訊息。基本上,使用 Dolma 的潛在使用者需要:
- 提供聯絡資訊和用例說明
- 披露任何使用 Dolma 創作的派生作品
- 在相同許可下分發這些衍生作品
- 同意不將 Dolma 應用於監視或散佈虛假訊息等禁止領域
對於擔心即使 AI2 盡力而為,其一些個人資料可能仍然包含在資料庫中的人群,此處提供了一份移除申請表單可供使用。這是特定情況下的申請,而不僅僅是一般的“請不要使用我的資料”。
如果上述內容對您而言是可以接受的,您可以透過 Hugging Face 存取 Dolma。
延伸閱讀
- 瓦納計劃讓使用者出租 Reddit 資料以訓練人工智慧【AI】
- Modal 籌集 2500 萬美元,為企業員工提供資料與人工智慧訓練
- Kin.art 推出免費工具,防止 GenAI 模型在藝術品上進行訓練
- 研究發現:人類學家發現 AI 模型可以被訓練成欺騙者
- Google 公佈利用影片和大型語言模型訓練機器人的新方法
- Giga ML 推出離線部署低資源語言模型幫助企業
- 亞馬遜 SageMaker HyperPod 讓 LLM 模型的訓練和微調更輕鬆
- Together 獲得 1.025 億美元投資,助力其發展用於訓練生成式人工智慧的雲端技術
- 亞馬遜推出新晶片,用於訓練和執行 AI 模型
- Waymo 推出全新模擬器,幫助研究人員訓練更逼真的智慧代理者