AIGC

生成式人工智慧資料集或將面臨考驗 | AI 頭條

AI 的利用已引發版權爭議概述《大西洋報》近日爆料指出，斯蒂芬·金（Stephen King）、贊迪·史密斯（Zadie Smith）和麥可·波蘭（Michael Pollan）等數千名作家的作品被用來訓練 Meta 的生成式人工智慧（AI）模型 LLaMA 以及其他大規模語言模型，使用一個名為「B .... (往下繼續閱讀)

by 江塵
2023/8/22
10 分鐘閱讀時間

A- A A+

文章目錄

AI 的利用已引發版權爭議

概述

《大西洋報》近日爆料指出，斯蒂芬·金（Stephen King）、贊迪·史密斯（Zadie Smith）和麥可·波蘭（Michael Pollan）等數千名作家的作品被用來訓練 Meta 的生成式人工智慧（AI）模型 LLaMA 以及其他大規模語言模型，使用一個名為「Books3」的資料集。報導聲稱，AI 的未來是「以偷竊的文字」所寫成。然而事實是這些作品是否「被偷竊」還遠未定論，至少就版權法而言並不明確。然而用於訓練生成式 AI 的資料集可能面臨一場考驗，不僅在美國法庭上，更是在公眾輿論的審判下。

具有版權材料的資料集：公開的祕密

衆所周知，生成式語言模型（LLM）需要大量版權材料來進行「訓練」。支援者和一些法律專家堅持認為這屬於所謂的「合理使用」，並經常引用 2015 年聯邦法院的裁決，該裁決認為 Google 對在網上顯示「提要」的圖書進行掃描並釋出未侵犯版權。然而也有其他一些同樣有說服力的對立論點。然而此前很少有人在 AI 界之外深入思考啟用 LLM 處理大量資料並生成文字或影象輸出的數百種資料集將如何影響那些創作作品被包含在資料集中的人們。直到《ChatGPT》於 2022 年 11 月面世後，生成式 AI 才在短短幾個月內引爆了文化潮流。

AI 生成的問題已凸顯

隨著 ChatGPT 的出現，LLMs 不再僅僅是科學研究實驗的有趣領域，而成為具有巨大投資和利潤潛力的商業企業。網路內容創作者（藝術家、作家、博主、記者、Reddit 發帖人、社交媒體上的帖子）正在意識到他們的作品早已被納入大規模資料集中，這些資料集訓練了 AI 模型，而這些模型最終可能使他們失去生計。原來，AI 創造的奇跡已經變成了公開的祕密，相應地，訴訟和好萊塢罷工也接踵而至。與此同時 OpenAI、Anthropic、Cohere 和 Meta 等 LLM 公司（這些公司傳統上一直是開源焦點的大型科技公司）對訓練模型使用的資料集越來越不透明，更加保密。

《大西洋報》稱：「除了 Meta 和 OpenAI 等公司外，很少有人理解這些程式完整的文字內容。這些程式所用的某些訓練文字來自網路上的維基百科和其他線上文字，但高品質的生成式 AI 需要比通常在網際網路上找到的更高品質的輸入，即書籍中的品質。」

在上個月，莎拉·西爾維曼（Sarah Silverman）、理查德·凱德裏（Richard Kadrey）和克裏斯多佛·格登（Christopher Golden）在加利福尼亞州提起訴訟，指控 Meta 使用他們的書籍來訓練 LLaMA，違反了版權法。《大西洋報》獲取並分析了 Books3，該資料集被用來訓練 LLaMA 以及彭博社的 BloombergGPT、EleutherAI 的 GPT-J 等可能嵌入在網際網路各個網站中的生成式 AI 程式。該文章的作者發現 Books3 中包含了超過 17 萬本書籍，其中包括詹妮弗·伊根（Jennifer Egan）的 5 本書、喬納森·弗蘭岑（Jonathan Franzen）的 7 本書、貝爾·福克斯（bell hooks）的 9 本書、大衛·格蘭恩（David Grann）的 5 本書和瑪格麗特·阿特伍德（Margaret Atwood）的 33 本書。Eleuther AI 的 Stella Biderman 在給《大西洋報》的一封電子郵件中寫道：“我們與創作者和權利持有人密切合作，以理解和支援他們的觀點和需求。我們當前正在建立僅包含授權使用的檔案的 Pile 版本。”

資料收集的長久歷史

資料收集有悠久的歷史，主要用於市場銷售和廣告。過去半個世紀，郵件列表經紀人使人們“自豪地宣稱，他們可以出租潛在感興趣的消費者名單給各種商品和服務的廣告商”。隨著網際網路的出現，市場銷售商開始建立大型資料庫，以分析社交媒體帖子、網站 Cookie 和 GPS 位置等一切，以便將廣告和市場銷售溝通個性化地鍊接到消費者上。人們長期以來一直使用“為了品質保證而錄制”的電話通話進行情感分析。為理解決與隱私、偏見和安全有關的問題，人們進行了數十年的訴訟和努力規範資料收集，包括 2018 年生效的歐盟《通用資料保護條例》（GDPR）。不過美國在這個問題上尚未有所突破，因為除了某些特定行業外，美國通常允許企業和機構在未經明確同意的情況下收集個人訊息。

然而現在的問題不僅僅與隱私、偏見或安全有關。生成式 AI 模型影響著工作場所和整個社會。許多人毫無疑問地認為，生成式 AI 的勞動和版權問題只是以往圍繞就業變革的重複，他們覺得消費者將接受這種情況，認為這不比大型科技公司多年來收集他們資料的方式有什麼不同。然而是否到了供生成式 AI 資料集受到考驗的時刻仍不確保。

生成式 AI 資料集可能面臨考驗

毫無疑問，數百萬人相信他們的資料已被盜，他們可能不會默默無聞。當然這並不意味著他們最終不會屈服於壓力。然而這也不意味著大型科技公司會獲得巨大的勝利。到當前為止，我和大多數法律專家的交流表明，法院將最終作出決定，甚至可能上訴至最高法院。對於用於訓練生成式 AI 的資料集的爭議，雙方都有強有力的論點。我認為，企業和 AI 公司應該考慮透明性是更好的選擇。畢竟，如果專家只能對 GPT-4、Claude 或 Pi 等強大、先進、龐大的 AI 模型的內容進行推測，那又有什麼意義呢？LLMs 所用的資料集不再只是為了幫助研究人員尋找下一個突破。雖然有人可能認為生成式 AI 將造福世界，但不容忽視的是，版權侵權現象已經猖獗。隨著追求商業上的成功，這些公司對資料的渴望可能會不斷誘使它們奪取更多資料。這種情況的結果不確保，考驗的日子或許即將來臨。

ArtificialIntelligence-人工智慧,生成式,資料集,考驗,AI 頭條

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集