市場觀察

莎拉·希爾弗曼對 OpenAI 和 Meta 的訴訟背後的真正含義是什麼 - AI 的重大戰役

訴訟指向 AI 公司的資料抓取行為：版權和「公平使用」之爭日益加劇引言最近，AI 公司的資料抓取行為成為法律訴訟的焦點。喜劇演員兼作家莎拉·希爾弗曼（Sarah Silverman）對 OpenAI 和 Meta 提起了侵犯版權的訴訟，指控其使用了她在 2010 年出版的幽默回憶錄《小尿牀員：勇氣、 .... (往下繼續閱讀)

by 程宇肖
2023/7/11
10 分鐘閱讀時間

A- A A+

文章目錄

莎拉·希爾弗曼對 OpenAI 和 Meta 的訴訟背後的真正含義是什麼 - AI 的重大戰役

訴訟指向 AI 公司的資料抓取行為：版權和「公平使用」之爭日益加劇

引言

最近，AI 公司的資料抓取行為成為法律訴訟的焦點。喜劇演員兼作家莎拉·希爾弗曼（Sarah Silverman）對 OpenAI 和 Meta 提起了侵犯版權的訴訟，指控其使用了她在 2010 年出版的幽默回憶錄《小尿牀員：勇氣、救贖和小便的故事》作為 OpenAI 的 ChatGPT 和 Meta 的 LLaMA 的訓練材料，生成了對其版權作品的摘要。不僅如此，另外兩起訴訟也指控 OpenAI 未經版權持有人同意、未給予他們榮譽和補償的情況下非法複製了書籍文字，並指控 ChatGPT 和 DALL-E 非法收集了網路上的個人資料。

這些訴訟引發了對 AI 和版權問題的廣泛討論，也劃分出了兩個陣營：一方主張 AI 公司的資料抓取行為違反了版權法，構成了侵權行為；另一方則認為 AI 公司的使用符合「公平使用」的法律原則，不應被追究版權責任。這個爭論可能會引入未來對 AI 和版權的重大變革。

訴訟預測

根據我個人的觀察和專業判斷，我預測以下三點：

1. 未來將出現更多訴訟

AI 資料抓取行為的問題不容忽視，相信將會有更多的訴訟湧入。Hugging Face 的研究員兼首席倫理科學家瑪格麗特·米切爾（Margaret Mitchell）曾表示這是一個「擺動的鐘擺」，她此前曾預測 OpenAI 可能會因為資料問題而被迫刪除至少一個模型。事實上自從 2022 年 4 月 DALL-E 2 首次亮相以來，與 AI 和「公平使用」相關的法律問題就一直存在。根據馬克·戴維斯（Mark Davies）律師的觀點，當事情關系重大時，人們會透過訴訟來解決這些法律問題。而對於資料抓取的爭議已經引起了廣泛的討論，訴訟只是時間問題。版權和公平使用的法律爭端最終可能會上訴至最高法院。

2. 資料集將受到越來越多的監管，但執行將面臨困難

莎拉·希爾弗曼的訴訟中指控 OpenAI 和 Meta 有意刪除版權管理訊息，以隱藏 LLaMA 語言模型的每一次輸出均是侵權衍生作品的事實。同樣，希爾弗曼的訴訟也猜測 ChatGPT 和 LLaMA 是在違反版權法的情況下，透過大量書籍資料集進行訓練的，包括像 Library Genesis 和 ZLibrary 這樣的「影子圖書館」。然而根據一篇去年十月的 Bloomberg Law 文章指出，在與「影子圖書館」的版權爭議中，存在許多法律障礙。例如，很多網站運營商都位於美國之外的國家。此外證實版權作品被用於 AI 訓練的使用是「衍生」作品，通常需要由創作者承擔責任。從法學角度來看，使用版權保護的資料來訓練生成式 AI 可能是合法的，但是生成的內容的使用則未必合法。因此法院在公平使用案件中的裁決往往很難預測。相關的先例中，有時出人意料地有相似案例的不同判決結果。然而根據最高法院的判例，許多人認為使用版權材料來訓練 AI 是合理使用的，基於其具有變形（transformative）的本質，即不取代原作市場。

3. 企業將希望擁有自己的模型或獲得賠償

企業已經表明，他們不希望面臨與 AI 訓練資料相關的訴訟風險，他們需要能夠安全地使用生成式 AI 內容進行商業用途。因此賠償成為產業關注的焦點。Shutterstock 在上個月宣布，將為企業客戶提供對於其平臺上使用的生成式 AI 影象的完整賠償，以保護他們免受使用這些影象可能引起的索賠。該公司表示將透過對影象的人工審查來履行賠償請求。Adobe 在上個月也宣布類似的舉措：如果客戶因侵權而被起訴，Adobe 將接管法律辯護，並為這些索賠提供一定的賠償金額。此外企業 MLOps 平臺 Domino Data Lab 的最新民意調查資料發現，資料科學家相信生成式 AI 將在未來幾年對企業產生重大影響，但這些能力不能外包。換句話說，企業需要對自己的生成式 AI 模型進行調整和控制。此外資料安全和智慧財產權保護也是企業關注的問題，一位國際律師事務所 Gunderson Dettmer 的合夥人 Katie Gardner 表示公平使用只是侵權行為的辯護，而不是法律權利。此外很難預測法院在任何一個公平使用案件中的裁決結果。然而有最高法院的先例表明，根據對該使用方式的變形性來看，使用版權材料來訓練 AI 可能是符合公平使用原則的。

結論

AI 公司的資料抓取行為正引發著與版權和「公平使用」相關的法律爭議。這一訴訟對 AI 產業可能產生深遠的影響，我們可以預見，未來將出現更多的訴訟案例。在這個法律爭端中，法院可能需要對 AI 資料抓取行為進行詳細的審查，以判斷是否構成侵權，同時也要考慮到公平使用原則的適用範圍。企業方面，為了避免訴訟風險，他們可能會希望擁有自己的生成式 AI 模型或獲得相應的賠償機制。整個 AI 產業將進一步探索 AI 和智慧財產權之間的關系，以確保技術的發展與法律的遵守相協調。

參考資料

https://venturebeat.com/2023/07/03/scraping-and-generating-text-the-growing-ai-copyright-battle/

Lawsuit-莎拉·希爾弗曼,OpenAI,Meta,訴訟,AI,戰役

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集