現在您可以封鎖 OpenAI 的網路爬蟲
由 Emilia David 撰寫的報導,報導人工智慧領域
OpenAI 現在允許使用者封鎖其網路爬蟲(GPTBot),以防止其爬取網站上的資訊用於訓練 GPT 模型。 OpenAI 在一篇部落格文章中表示網站經營者可以在其網站的 robots.txt 檔案中明確禁止 GPTBot 爬蟲,或封鎖其 IP 位址。OpenAI 在該部落格文章中表示:"使用 GPTBot 使用者代理爬取的網頁可能被用於改進未來的模型,並且會經過過濾以排除需要付費存取、收集個人身份識別訊息(PII)的資訊源,或者含有違反我們政策的文字。"對於不符合排除標準的資源,"允許 GPTBot 存取您的網站可以幫助 AI 模型變得更準確,提高其通用能力和安全性。"封鎖 GPTBot 可能是 OpenAI 允許網路使用者選擇不使用其資料來訓練其大型語言模型的第一步。這是繼去年 DeviantArt 提出的一個“NoAI”標記之後,開創了排除訓練內容的早期嘗試。但它不會從 ChatGPT 的訓練資料中回溯地刪除以前從網站上爬取的內容。
網路為 OpenAI 的 GPT 模型和 Google 的 Bard 等大型語言模型提供了大量訓練資料
網路為 OpenAI 的 GPT 模型和 Google 的 Bard 等大型語言模型提供了大量訓練資料。然而 OpenAI 並未確認它是透過社交媒體帖子、受版權保護的作品,還是從網際網路的哪些部分爬取的訊息。而 AI 訓練資料的來源越發引起爭議。網站,包括 Reddit 和 Twitter,一直在努力打擊 AI 公司對其使用者帖子的自由使用,而作家和其他創作者則因所作品被未經授權地使用而提起訴訟。在上個月的幾次 AI 監管問題的參議院聽證會中,立法者也關注了資料隱私和同意問題。
關於 AI 資料隱私和同意問題的法規與討論
據 Axios 報導,Adobe 等公司提出透過一項反冒名法律將資料標記為不用於訓練的想法。包括 OpenAI 在內的 AI 公司與白宮簽署協議,將開發一種水印系統,讓人們知道某物是否由 AI 生成,但沒有承諾停止使用網際網路資料進行訓練。
總結與建議
OpenAI 允許使用者封鎖其網路爬蟲,這是一個重要的舉措,允許網路使用者選擇不使用其資料來訓練大型語言模型。這體現了對資料隱私和同意問題引起關注的回應,並為人工智慧訓練和資料使用引發了更廣泛的討論。然而在解決此問題時還存在許多挑戰。AI 公司需要更加透明地明確資料來源,同時尊重使用者和創作者的權益。此外政府和監管機構需要制定更具體的規範,以平衡技術創新和個人隱私之間的關係。網站經營者應該理解他們在網站上公開的內容可能會被用於訓練 AI 模型,並有權選擇是否封鎖相關爬蟲。最重要的是,使用者應留意其在網路上的資料隱私,並定期檢查和調整其網際網路使用設定以保護自己的利益。
延伸閱讀
- OpenAI 成立團隊控制「超智慧」AI,卻任憑其枯萎——訊息來源指出
- OpenAI 聯合創始人兼長期首席科學家 Ilya Sutskever 離職
- OpenAI 考慮允許 AI 色情內容?
- OpenAI 揭開 AI 祕密指令的面紗
- OpenAI 表示正在建立一個工具,以讓內容創作者選擇退出 AI 訓練
- 微軟和 OpenAI 啟動 200 萬美元基金以對抗選舉假影片
- Stack Overflow 與 OpenAI 簽約,提供資料支援其模型
- Quora CEO Adam D’Angelo 分享人工智慧和聊天機器人平臺 Poe,並解釋為何 OpenAI 並非競爭對手
- OpenAI 與英國《金融時報》達成戰略合作,包括內容使用
- OpenAI 旗下創投基金悄悄籌集 1500 萬美元