現在你可以封鎖 OpenAI 的網路爬蟲

現在您可以封鎖 OpenAI 的網路爬蟲由 Emilia David 撰寫的報導，報導人工智慧領域 OpenAI 現在允許使用者封鎖其網路爬蟲（GPTBot），以防止其爬取網站上的資訊用於訓練 GPT 模型。 OpenAI 在一篇部落格文章中表示網站經營者可以在其網站的 robots.txt .... (往下繼續閱讀)

by 江塵
2023/8/8
5 分鐘閱讀時間

A- A A+

文章目錄

現在您可以封鎖 OpenAI 的網路爬蟲

由 Emilia David 撰寫的報導，報導人工智慧領域

OpenAI 現在允許使用者封鎖其網路爬蟲（GPTBot），以防止其爬取網站上的資訊用於訓練 GPT 模型。 OpenAI 在一篇部落格文章中表示網站經營者可以在其網站的 robots.txt 檔案中明確禁止 GPTBot 爬蟲，或封鎖其 IP 位址。OpenAI 在該部落格文章中表示："使用 GPTBot 使用者代理爬取的網頁可能被用於改進未來的模型，並且會經過過濾以排除需要付費存取、收集個人身份識別訊息（PII）的資訊源，或者含有違反我們政策的文字。"對於不符合排除標準的資源，"允許 GPTBot 存取您的網站可以幫助 AI 模型變得更準確，提高其通用能力和安全性。"封鎖 GPTBot 可能是 OpenAI 允許網路使用者選擇不使用其資料來訓練其大型語言模型的第一步。這是繼去年 DeviantArt 提出的一個“NoAI”標記之後，開創了排除訓練內容的早期嘗試。但它不會從 ChatGPT 的訓練資料中回溯地刪除以前從網站上爬取的內容。

網路為 OpenAI 的 GPT 模型和 Google 的 Bard 等大型語言模型提供了大量訓練資料

網路為 OpenAI 的 GPT 模型和 Google 的 Bard 等大型語言模型提供了大量訓練資料。然而 OpenAI 並未確認它是透過社交媒體帖子、受版權保護的作品，還是從網際網路的哪些部分爬取的訊息。而 AI 訓練資料的來源越發引起爭議。網站，包括 Reddit 和 Twitter，一直在努力打擊 AI 公司對其使用者帖子的自由使用，而作家和其他創作者則因所作品被未經授權地使用而提起訴訟。在上個月的幾次 AI 監管問題的參議院聽證會中，立法者也關注了資料隱私和同意問題。

關於 AI 資料隱私和同意問題的法規與討論

據 Axios 報導，Adobe 等公司提出透過一項反冒名法律將資料標記為不用於訓練的想法。包括 OpenAI 在內的 AI 公司與白宮簽署協議，將開發一種水印系統，讓人們知道某物是否由 AI 生成，但沒有承諾停止使用網際網路資料進行訓練。

總結與建議

OpenAI 允許使用者封鎖其網路爬蟲，這是一個重要的舉措，允許網路使用者選擇不使用其資料來訓練大型語言模型。這體現了對資料隱私和同意問題引起關注的回應，並為人工智慧訓練和資料使用引發了更廣泛的討論。然而在解決此問題時還存在許多挑戰。AI 公司需要更加透明地明確資料來源，同時尊重使用者和創作者的權益。此外政府和監管機構需要制定更具體的規範，以平衡技術創新和個人隱私之間的關係。網站經營者應該理解他們在網站上公開的內容可能會被用於訓練 AI 模型，並有權選擇是否封鎖相關爬蟲。最重要的是，使用者應留意其在網路上的資料隱私，並定期檢查和調整其網際網路使用設定以保護自己的利益。

InternetSecurity-OpenAI,網路爬蟲,封鎖

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集