人工智慧基準測試的不足之處
當前局勢分析
在週二,初創企業 Anthropic 推出了一系列的生成式人工智慧模型,聲稱達到了業內最佳表現。僅僅幾天後,競爭對手 Inflection AI 也推出了一個模型,聲稱幾乎能夠與包括 OpenAI 的 GPT-4 在內的一些最強大模型媲美。Anthropic 和 Inflection 絕非第一家聲稱其模型在某些客觀標準下超越甚至擊敗競爭對手的人工智慧公司。Google 曾在其 Gemini 模型發布時作出了同樣的主張,OpenAI 也曾宣稱 GPT-4 及其前身 GPT-3、GPT-2 和 GPT-1 達到這一水準。這樣的清單還有很長一段時間。
評估指標的含義
然而這些公司所說的評估標準具體是什麼?當廠商宣稱其模型達到了最先進的表現或質量時,究竟是什麼意思?更確切地說,一個在技術上比其他模型效能更好的模型,是否會在實質感知上有所改進?對於最後一個問題,答案似乎是否定的。在於,問題或者說問題所在是在於人工智慧公司使用的基準測試,量化一個模型的優勢和劣勢。
基準測試的僵化
當前人工智慧模型最常用的基準測試,尤其是像 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 這樣的聊天機器人驅動模型,並不擅長捕捉普通人與被測試模型的互動方式。例如,Anthropic 在其近期發布中引用的一個基準測試 GPQA ("畢業級 Google 不可證問答基準測試"),包含數百個博士級別的生物學、物理學和化學問題,然而大多數人使用聊天機器人的任務是回覆郵件、撰寫求職信和談論感受。艾倫人工智慧研究非營利機構的科學家傑西·道奇(Jesse Dodge)告訴 TechCrunch 在一次存取中說,行業已經陷入了"評估危機"。他表示基準測試通常是靜態的,而且狹隘地專注於評估單一功能,比如模型在單一領域的真實性,或者其解決數學推理多選問題的能力。
錯誤和其他缺陷
除了與使用場景不符的問題外,有人質疑一些基準測試是否真正能夠正確評估它們所聲稱評估的東西。對於用於評估模型常識推理能力的 HellaSwag 基準測試的分析發現,超過三分之一的測試問題中包含錯別字和"荒謬"的寫作。另外 MMLU(即"大規模多工語言理解")是一個被 Google、OpenAI 和 Anthropic 等廠商指出其模型可以透過邏輯問題的基準測試,它的問題可以透過機械記憶來解答。康奈爾大學研究人工智慧和道德的博士後研究員大衛·韋德(David Widder)指出,許多常見基準測試測試的技能,從解決小學水平的數學問題到識別一個句子是否含有顛倒錯誤,對於多數使用者來說都是不會有用的。
尋求解決之道
對於基準測試的問題,有人質疑是否能夠加以修復。道奇認為,更多的人的參與是正確的道路,"這條正確的前進道路是將評估基於基準測試和人類評估相結合,促使模型回應真實使用者查詢,然後僱用一個人來評估回應的好壞。"而韋德對於今天的基準測試,即使修復了拼寫錯誤等明顯的錯誤,也不太樂觀地認為它們能夠改進到對大多數生成式人工智慧模型使用者有意義的程度。他認為,模型測試應該關注這些模型的下遊影響以及這些影響是否被影響者認為是可取的。他說:"我會問我們希望人工智慧模型能夠被用於的具體情境目標,並評估它們在這樣的情境中是否成功,或者已經成功。希望這個過程還包括評估我們是否應該在這樣的情境中使用人工智慧。"
延伸閱讀
- OpenAI 揭開 AI 祕密指令的面紗
- AI 助您創辦者更快、更輕鬆地籌集資金嗎?
- 盧西德機器人獲得 900 萬美元用於無人機清潔任何地方
- 以色列新創公司 Panax 籌集了 1,000 萬美元 A 輪融資,用於其基於人工智慧的現金流管理平臺
- Reddit 測試使用基於 LLM 的人工智慧進行自動整站法語翻譯
- 三星醫聲將以 9270 萬美元收購法國人工智慧超聲波新創公司 Sonio
- 網際網路共同創始人 Robert Kahn 早在幾十年前就已經做到了加密、人工智慧和網際網路嗎?
- 人聲 vs AI:Audible 推出 AI 旁白有機會取代人類旁白嗎?
- 突破獨家訪談:Wayve 共同創辦人 Alex Kendall 談自動駕駛汽車和機器人的未來
- Rad AI 完成由 Khosla Ventures 領投的 5 千萬美元 B 輪融資