市場觀察

AI2 釋出迄今最大開放資料集,專為訓練語言模型提供!

AI2 釋出迄今最大的開放資料集,為訓練語言模型鋪路 AI2(Allen Institute for AI)旨在打破現有的趨勢,釋出全新且龐大的文字資料集 Dolma,該資料集可以免費使用並且公開查閱。Dolma 將成為 AI2 研究團隊計劃中開放語言模型(OLMo)的基礎(Dolma 縮寫為“用於滿 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

AI2 釋出迄今最大開放資料集,專為訓練語言模型提供!

AI2 釋出迄今最大的開放資料集,為訓練語言模型鋪路

AI2(Allen Institute for AI)旨在打破現有的趨勢,釋出全新且龐大的文字資料集 Dolma,該資料集可以免費使用並且公開查閱。Dolma 將成為 AI2 研究團隊計劃中開放語言模型(OLMo)的基礎(Dolma 縮寫為“用於滿足 OLMo 食慾的資料”)。

AI2 研究團隊表示既然該模型的使用和修改將向 AI 研究社區開放,那麼建立模型的資料集也應該如此。這是 AI2 首次釋出與 OLMo 相關的“資料成果”,在其部落格文章中,AI2 的 Luca Soldaini 解釋了使用該資料集的不同來源以及團隊在處理過程中的選擇和合理性(該團隊在文章一開始就指出,“還有一份更全面的論文正在製作中。”)。

儘管 OpenAI 和 Meta 等公司公開了一些用於構建語言模型的資料集的重要統計資料,但其中很多訊息都被視為專有。除了知名的阻礙審查及改進的後果之外,還有可能是由於資料的獲取方式在道德上或法律上存在問題,例如: 未經授權使用了許多作家的書籍。成千上萬的作者簽署信件,敦促 AI 製造商停止盜版行為。

AI2 所提供的圖表清晰地展示了最大和最新的模型僅提供了研究人員對特定資料集可能想理解的一些訊息。其中一個問題是:都刪去了哪些訊息以及為什麼刪除那些訊息?何謂高質量和低質量的文字?個人訊息是否已經適當地刪除?下圖展示了不同資料集的開放性。

當然在充滿競爭的 AI 領域中,這些公司有權保守其模型的訓練過程的祕密。但對於這些公司之外的研究人員而言,這使得這些資料集和模型更加不透明且難以研究或複製。AI2 的 Dolma 旨在成為這些資料集的反面,包括所有來源和過程的公開檔案。AI2 正在開發一個針對科學領域最佳化的大型語言模型

資料集的開放程度圖表

AI2 並非最先嘗試開放資料集,但它無疑是迄今最大的一個(30 億令牌,這是 AI 的內部量度),而且他們聲稱它是使用和許可權方面最簡單的。它使用“ImpACT License for medium-risk artifacts”,您可以在這裡檢視詳細訊息。基本上,使用 Dolma 的潛在使用者需要:

  • 提供聯絡資訊和用例說明
  • 披露任何使用 Dolma 創作的派生作品
  • 在相同許可下分發這些衍生作品
  • 同意不將 Dolma 應用於監視或散佈虛假訊息等禁止領域

對於擔心即使 AI2 盡力而為,其一些個人資料可能仍然包含在資料庫中的人群,此處提供了一份移除申請表單可供使用。這是特定情況下的申請,而不僅僅是一般的“請不要使用我的資料”。

如果上述內容對您而言是可以接受的,您可以透過 Hugging Face 存取 Dolma。

Opendataset-AI2,開放資料集,語言模型,訓練
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。