AIGC

ChatGPT 的行為正在改變，AI 研究人員表示

關於 OpenAI ChatGPT 的研究發現模型行為的改變研究發現史丹佛大學和加州大學伯克利分校的研究人員在 arXiv.org 公開存取的期刊上發表了一篇未經審查的論文，該研究發現 OpenAI 的 ChatGPT 大型語言模型（LLMs）的“效能和行為”在 2023 年 3 月至 6 月之間發 .... (往下繼續閱讀)

by 江塵
2023/7/20
6 分鐘閱讀時間

A- A A+

文章目錄

關於 OpenAI ChatGPT 的研究發現模型行為的改變

研究發現

史丹佛大學和加州大學伯克利分校的研究人員在 arXiv.org 公開存取的期刊上發表了一篇未經審查的論文，該研究發現 OpenAI 的 ChatGPT 大型語言模型（LLMs）的“效能和行為”在 2023 年 3 月至 6 月之間發生了變化。研究人員得出結論，他們的測試表明“某些任務的效能在時間上有明顯下降”。研究論文的三位作者之一、史丹佛大學的詹姆斯·走表示：“這項研究的主要動機是：我們從 ChatGPT 使用者收到了很多關於模型行為隨時間改變的案例經驗。有些任務可能變得更好，或者其他任務變得更差。這就是我們希望以系統性的方式對其進行評估的原因。”

結果及評論

研究發現尚未經過同行審查，並且還未發表在其他有聲望的科學期刊上。然而該論文的作者之一，史丹佛大學的詹姆斯·走表示他們計劃將其提交給期刊審查。OpenAI 的開發者代表 Logan Kilpatrick 在推特上對該論文和隨之產生的討論表示感謝，並表示他們正在積極研究所分享的問題。他還發布了 OpenAI 的 Evals 框架 GitHub 頁面的連結，該頁面用於評估 LLMs 和 LLM 系統，並提供了一個開源的基準測試庫。

現場取樣的測試結果表明，OpenAI 的 LLMs 在識別質數、以“步驟”方式顯示思考過程以及生成帶有更多格式錯誤的程式碼方面變得更差。在評估的三個月期間，GPT-4 在回答“按步驟思考的質數識別”方面的準確率下降了 95.2％，而 GPT-3.5 則顯著提高到 79.4％。另一個問題是查詢帶有限定描述的整數範圍的總和，GPT-4 和 GPT-3.5 在這方面的效能分別下降了 42％和 20％。然而 GPT-4 在 6 月相比於 3 月來說在阻止越獄或繞過內容保護約束的特定提示方面表現得更好，這可能被認為是公司的改進。

然而並非每個人都相信 Zaharia 團隊所選用的測試任務和度量標準是否能夠有效衡量服務“明顯惡化”。普林斯頓大學資訊技術政策中心的電腦科學教授兼主任 Arvind Narayanan 在推特上表示：“我們研究的論文被誤解為 GPT-4 變得更差。該論文表明的是行為變化，而非能力下降。而且評估存在問題－在一個任務中，我們認為作者將模仿誤認為推理。”在 ChatGPT 的 reddit 和 YCombinator 上，一些評論者對研究人員所選擇的失敗標準提出了質疑，但有些長期使用者似乎對這些生成的人工智慧輸出發生了改變的證據感到欣慰。

提高透明度和警覺性

該研究論文指出當前的閉源 LLMs 的公眾觀點是多麼的模糊不清，而且它們如何隨著時間推移而演變。研究人員表示提高監控和透明度是避免 LLM 漂移困境的關鍵。Zou 表示：“我們從 OpenAI — 以及其他供應商和初創企業 — 那裡所獲得的訊息並不多。”“這凸顯了對 LLMs 進行這類持續的外部評估和監測的需求。我們確實計劃繼續這樣做。” Kilpatrick 在一個之前的推文中表示 GPT API 的變更不會在 OpenAI 通知使用者之前進行。將 LLMs 納入產品和內部能力的企業需要保持警覺，以應對 LLM 漂移的影響。Zou 表示：“因為如果您在某種軟體堆疊或工作流程中依賴這些模型的輸出，而模型的行為突然變化，並且您不知道發生了什麼，這實際上可能會破壞整個系統、中斷流程。”

結論

這項研究發現了 OpenAI 的 ChatGPT 在過去幾個月內的效能和行為的變化。雖然這項研究尚未經過同行審查，但它提供了對 LLMs 的新見解，並引起了人們對模型行為改變的關注。這一研究結果突顯了對於引入生成式人工智慧產品的企業和機構來說需要密切關注模型行為的變化。同時 OpenAI 和其他供應商應該提高透明度，充分公開模型的更新和變化，以幫助使用者更好地理解和應對模型行為的變化。

Technology-ChatGPT,人工智慧,自然語言處理,AI 研究,語言模型

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集

ChatGPT 的行為正在改變，AI 研究人員表示

文章目錄

關於 OpenAI ChatGPT 的研究發現模型行為的改變

研究發現

結果及評論

提高透明度和警覺性

結論

延伸閱讀

科技新聞網站主編：MosaicML 推出 7B 引數、8K 內文長度的開源 LLM MPT-7B-8K

當 Nous.co 將生成式人工智慧應用於使用者的家庭帳單時，發生了什麼事情？

江塵