AIGC

ChatGPT 出現成長痛還是變笨了？

ChatGPT: 成長痛還是變得更蠢了嗎？紐約時報評論 2023 年 7 月 21 日編者按本文已根據 Science X 的編輯流程和政策進行審查。編輯們在確保內容可信度的同時還強調了以下特點：事實查證、可信的預印本來源、校對無誤。聊天機器人 ChatGPT 由 OpenAI 開發，是一個廣受讚譽的 .... (往下繼續閱讀)

by 程宇肖
2023/7/21
8 分鐘閱讀時間

A- A A+

文章目錄

ChatGPT: 成長痛還是變得更蠢了嗎？

紐約時報評論

2023 年 7 月 21 日

編者按

本文已根據 Science X 的編輯流程和政策進行審查。編輯們在確保內容可信度的同時還強調了以下特點：事實查證、可信的預印本來源、校對無誤。

聊天機器人 ChatGPT 由 OpenAI 開發，是一個廣受讚譽的大型語言模型，被稱為「簡直是有史以來釋出給大眾的最好人工智慧聊天機器人」（Kevin Roose，「未來攸關：自動化時代人類的九條法則」的作者）以及「運算史上最重要的事情之一」（NVIDIA CEO Jensen Huang）。ChatGPT 在提供對使用者查詢的自然回應方面表現得如此出色，以至於一些人認為它已正式透過圖靈測試，這是衡量機器實現人類智慧能力的長期標準。ChatGPT 在許多領域的成就考試中都取得了最高百分位數，如數學（89％）、法律（90％）和 GRE 語言測試（99％）。此外紐約大學的醫學院研究人員在 2023 年 7 月初的一份報告中指出，ChatGPT 針對醫療相關問題提供的建議幾乎無法與人類醫療人員提供的建議區分開來。

然而斯坦福大學和加州大學伯克利分校的研究人員對將 ChatGPT 委託作出任何關鍵決策都不太滿意。隨著越來越多的使用者提出擔憂，研究人員 Lingjiao Chen、Matei Zaharia 和 James Zhu 表示 ChatGPT 的表現並不持久，甚至在某些任務上呈現惡化的趨勢。他們在 7 月 18 日發表在 arXiv 預印本伺服器上的一篇論文中表示《GPT-3.5》和《GPT-4》的表現和行為都會有顯著變異，而某些任務的回應「隨著時間的推移而明顯惡化」。他們指出，在一個四個月的時期內，從 2023 年 3 月到 6 月，效能出現了顯著變化。

研究人員主要關注幾個領域，包括解決數學問題、回答敏感問題、生成程式碼和視覺推理。根據斯坦福大學的研究結果，2023 年 3 月時，GPT-4 在處理與質數有關的問題時的準確率為 97.6%。然而到了更新的 2023 年 6 月模型時，這一準確率暴跌至 2.4%。ChatGPT 因其協助程式設計人員進行程式設計和偵錯而受到廣泛稱讚。GPT-4 在 3 月份回應程式設計人員請求時，準確地完成可直接執行的指令碼的機率略高於 50%。但到了 6 月份，這一機率下降至 10%。ChatGPT-3.5 同樣在準確性方面出現明顯下降，從 3 月的 22%降至 6 月的 2%。有趣的是，ChatGPT-3.5 在數學能力方面的結果幾乎相反：3 月份在質數問題解決方面僅達 7.4%的準確率，而 6 月份升級版本則達到了 86.8%。

研究人員朱（Zhu）表示很難確保是什麼原因導致這種變化，儘管似乎可以肯定的是系統的修改和升級是其中的因素之一。朱說道：“我們對於 ChatGPT 的回應變化導致的原因並不完全理解，因為這些模型是不透明的。”他還表示：“改進模型在某些領域的效能可能會帶來意想不到的副作用，使其在其他任務上的表現變差。”

一些人注意到了一些結果的惡化，並提出陰謀論，認為 OpenAI 正在嘗試使用更小的 LLM 版本以節省成本。還有人試圖說 OpenAI 有意削弱 GPT-4，以便受挫的使用者更願意購買 GitHub 的 LLM 附件 CoPilot。OpenAI 對這些聲稱予以否認。上週，OpenAI 產品副總裁彼得·韋林德在一個推文中表示：“我們沒有讓 GPT-4 變得更蠢。相反，我們使每個新版本都比上一個版本更智慧。”他提出了另一種解釋：“當你使用它的次數越多，你就會開始注意到之前沒有注意到的問題。”

與此同時一些關注模型結果中的"漂移"影響的觀察者們正在敦促 OpenAI 公開 ChatGPG 4.0 的培訓材料來源、程式碼和其他結構要素。人工智慧公司 Hugging Face 的薩莎·盧沃西尼解釋說：“關於閉源模型的任何結果都是不可重複且不可取證的，因此從科學角度來看，我們在比較浣熊和松鼠。”她最近在接受 ARS Technica 採訪時表示：“科學家不應該不斷監測部署的 LLM，而是應該讓模型建立者提供底層模型的存取許可權，至少是爲了審計目的。”

Brain-wordpress,ChatGPT,成長痛,變笨

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集

ChatGPT 出現成長痛還是變笨了？

文章目錄

ChatGPT: 成長痛還是變得更蠢了嗎？

紐約時報評論

編者按

延伸閱讀

ChatGPT Plus 加固版獲得自定義指令，讓它記住你期望的表現方式

生成式人工智慧對網路安全與身分盜竊的不斷影響

程宇肖