AIGC

為什麼大多數人工智慧基準測試結果如此不足見解

人工智慧基準測試的不足之處當前局勢分析在週二，初創企業 Anthropic 推出了一系列的生成式人工智慧模型，聲稱達到了業內最佳表現。僅僅幾天後，競爭對手 Inflection AI 也推出了一個模型，聲稱幾乎能夠與包括 OpenAI 的 GPT-4 在內的一些最強大模型媲美。Anthrop .... (往下繼續閱讀)

by 程宇肖
2024/3/8
6 分鐘閱讀時間

A- A A+

文章目錄

人工智慧基準測試的不足之處

當前局勢分析

在週二，初創企業 Anthropic 推出了一系列的生成式人工智慧模型，聲稱達到了業內最佳表現。僅僅幾天後，競爭對手 Inflection AI 也推出了一個模型，聲稱幾乎能夠與包括 OpenAI 的 GPT-4 在內的一些最強大模型媲美。Anthropic 和 Inflection 絕非第一家聲稱其模型在某些客觀標準下超越甚至擊敗競爭對手的人工智慧公司。Google 曾在其 Gemini 模型發布時作出了同樣的主張，OpenAI 也曾宣稱 GPT-4 及其前身 GPT-3、GPT-2 和 GPT-1 達到這一水準。這樣的清單還有很長一段時間。

評估指標的含義

然而這些公司所說的評估標準具體是什麼？當廠商宣稱其模型達到了最先進的表現或質量時，究竟是什麼意思？更確切地說，一個在技術上比其他模型效能更好的模型，是否會在實質感知上有所改進？對於最後一個問題，答案似乎是否定的。在於，問題或者說問題所在是在於人工智慧公司使用的基準測試，量化一個模型的優勢和劣勢。

基準測試的僵化

當前人工智慧模型最常用的基準測試，尤其是像 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 這樣的聊天機器人驅動模型，並不擅長捕捉普通人與被測試模型的互動方式。例如，Anthropic 在其近期發布中引用的一個基準測試 GPQA ("畢業級 Google 不可證問答基準測試")，包含數百個博士級別的生物學、物理學和化學問題，然而大多數人使用聊天機器人的任務是回覆郵件、撰寫求職信和談論感受。艾倫人工智慧研究非營利機構的科學家傑西·道奇（Jesse Dodge）告訴 TechCrunch 在一次存取中說，行業已經陷入了"評估危機"。他表示基準測試通常是靜態的，而且狹隘地專注於評估單一功能，比如模型在單一領域的真實性，或者其解決數學推理多選問題的能力。

錯誤和其他缺陷

除了與使用場景不符的問題外，有人質疑一些基準測試是否真正能夠正確評估它們所聲稱評估的東西。對於用於評估模型常識推理能力的 HellaSwag 基準測試的分析發現，超過三分之一的測試問題中包含錯別字和"荒謬"的寫作。另外 MMLU（即"大規模多工語言理解"）是一個被 Google、OpenAI 和 Anthropic 等廠商指出其模型可以透過邏輯問題的基準測試，它的問題可以透過機械記憶來解答。康奈爾大學研究人工智慧和道德的博士後研究員大衛·韋德（David Widder）指出，許多常見基準測試測試的技能，從解決小學水平的數學問題到識別一個句子是否含有顛倒錯誤，對於多數使用者來說都是不會有用的。

尋求解決之道

對於基準測試的問題，有人質疑是否能夠加以修復。道奇認為，更多的人的參與是正確的道路，"這條正確的前進道路是將評估基於基準測試和人類評估相結合，促使模型回應真實使用者查詢，然後僱用一個人來評估回應的好壞。"而韋德對於今天的基準測試，即使修復了拼寫錯誤等明顯的錯誤，也不太樂觀地認為它們能夠改進到對大多數生成式人工智慧模型使用者有意義的程度。他認為，模型測試應該關注這些模型的下遊影響以及這些影響是否被影響者認為是可取的。他說："我會問我們希望人工智慧模型能夠被用於的具體情境目標，並評估它們在這樣的情境中是否成功，或者已經成功。希望這個過程還包括評估我們是否應該在這樣的情境中使用人工智慧。"

Technology-人工智慧,基準測試,不足見解,技術評估

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集