重新思考 AI 基準：一篇新論文挑戰評估人工智慧的現狀

新論文挑戰評估人工智慧的現狀人工智慧（AI）近年來在實現許多複雜任務方面取得了顯著進展，這些任務曾經被認為是人類智慧的領域。從透過律師考試和高分透過 SAT，到掌握語言熟練度和診斷醫學影象，像 GPT-4 和 PaLM 2 等 AI 系統已經超越了人類在各個基準測試上的表現。基準測試基本上是衡量 A .... (往下繼續閱讀)

by 程宇肖
2023/6/13
6 分鐘閱讀時間

A- A A+

文章目錄

新論文挑戰評估人工智慧的現狀

人工智慧（AI）近年來在實現許多複雜任務方面取得了顯著進展，這些任務曾經被認為是人類智慧的領域。從透過律師考試和高分透過 SAT，到掌握語言熟練度和診斷醫學影象，像 GPT-4 和 PaLM 2 等 AI 系統已經超越了人類在各個基準測試上的表現。基準測試基本上是衡量 AI 系統在特定任務和目標上的表現的標準化測試，研究人員和開發人員廣泛使用它們來比較和改進不同的模型和算法；然而《科學》雜誌上發表的一篇新論文質疑了評估 AI 系統的許多現有基準測試的有效性和實用性。該論文認為基準測試經常無法捕捉 AI 系統的真正能力和局限性，可能會導致有關其安全性和可靠性的虛假或誤導性結論。這對於在哪裡使用這些系統的做出明智決策提出了重大挑戰。由於企業面臨越來越大的壓力要在產品中使用先進的 AI 系統，因此社區需要重新思考評估新模型的方法。

聚合指標的需要

為了開發安全和公平的 AI 系統，研究人員和開發人員必須確保他們理解系統的能力和失敗的位置。劍橋大學 AI 研究人員、該論文的主要作者 Ryan Burnell 告訴 VentureBeat:“要建立這種理解，我們需要一種對韌性和透明度都非常認真的研究文化。但我們認為當前的研究文化兩方面都缺乏。” 他和他的共同作者指出的主要問題之一是使用匯總指標來總結 AI 系統在某類任務中的整體表現，例如數學、推理或影象分類。聚合指標很方便，因為它們簡單易懂。但是這種便利是以透明度的代價為代價，它缺乏有關 AI 系統在一些重要任務的表現細節的訊息。

Burnell 表示：“如果你有來自幾十個任務的資料，也許是每個任務的數千個個別實例，那麼解釋和傳達這些資料並不總是容易的。聚合指標允許您以一種簡單、直觀的方式傳達結果，讀者、審稿人或 - 正如我們現在看到的 - 顧客可以迅速理解。但問題是，這種簡化可以隱藏資料中非常重要的模式，這些模式可能會指出潛在的偏差、安全問題，或者只是幫助我們更多地理解系統的工作方式，因為我們無法判斷系統在哪裏失敗。”

聚合基準測試中存在許多問題。例如，模型在聚合基準測試上可能有可接受的整體表現，但在某些任務子集上表現不佳。商業人臉識別系統的研究發現，整體準確度非常高的模型在較深綠膚色的人臉上表現不佳。在其他情況下，模型可能會學習到錯誤的模式，例如基於背景、浮水印或其他與主要任務無關的人工物品來檢測物件。大型語言模型（LLM）還可能使問題變得更加複雜。Burnell 表示：“隨著大型語言模型變得越來越通用，這個問題變得越來越嚴重，因為我們需要評估的能力範圍也越來越廣泛。這意味著當我們聚合所有資料時，我們以一種不合理的方式結合了完全不同的專案。”根據幾項研究，LLM 在複雜任務上表現良好，而對於比較簡單的任務，例如解決複雜的數學問題，如果以不同的方式提出相同的問題，它們就會給出錯誤答案。其他研究顯示同樣的模型在人類需要掌握更複雜的任務之前就會失敗。

Burnell 表示：“更廣泛的問題是，我們可能會對系統的能力過於自信，並在它們不安全或不可靠的情況下部署它們。GPT-4 技術報告中高度宣傳的一個成就是該模型能夠透過模擬律師考試並在考生中排名前 10％。然而該報告並未提供任何有關模型在哪些問題或任務上失敗的細節。Burnell 表示：“如果這些任務非常重要或經常出現，那麼我們可能不會信任這個系統在這種高風險情況下的可靠性。”他補充表示：“我不是說 ChatGPT 在法律背景下沒有用處，但是只知道它在律師考試中得分 90％並不足以做出有關問題的明智決定。”

粒度細的資料可以提高 AI 評估效果

Burnell 和共同作者在論文中突出的另一個問題是缺乏詳細的案例評估報告。如果沒有存取用於測試模型的案例詳細訊息，獨立研究人員將很難取證或證實發表的論文中所報告的結果。

Burnell 說：“從負責任的角度來看，評估透明度非常重要......社區必須有一種獨

Artificial Intelligence-AI 基準,新論文,評估,人工智慧,現狀

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集

重新思考 AI 基準：一篇新論文挑戰評估人工智慧的現狀

文章目錄

新論文挑戰評估人工智慧的現狀

聚合指標的需要

粒度細的資料可以提高 AI 評估效果

延伸閱讀

匹配推出名為“72 小時”的新應用程式內即時活動

保羅·麥卡特尼使用 AI 創作出新的披頭四樂曲

程宇肖