網路議題

AI「推理」模型崛起,效能評估成本飆升!

AI 推理模型效能評估成本飆升 AI 推理模型的昂貴效能評估 在人工智慧領域,推理模型的發展已成為科技界的一大焦點。這些模型不僅能夠逐步解決問題,而且在特定領域,如物理學中,表現出比非推理模型更優異的效能。然而這種優勢來之不易。根據第三方 AI 測試機構 A .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

AI「推理」模型崛起,效能評估成本飆升!

AI 推理模型效能評估成本飆升

AI 推理模型的昂貴效能評估

在人工智慧領域,推理模型的發展已成為科技界的一大焦點。這些模型不僅能夠逐步解決問題,而且在特定領域,如物理學中,表現出比非推理模型更優異的效能。然而這種優勢來之不易。根據第三方 AI 測試機構 Artificial Analysis 的資料,評估 OpenAI 的 o1 推理模型需要花費 2,767.05 美元,而這僅僅是使用七個常見的 AI 基準測試套件:MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。同樣,對 Anthropic 的 Claude 3.7 Sonnet 進行評估的成本為 1,485.35 美元,而 OpenAI 的 o3-mini-high 則為 344.59 美元。儘管有些推理模型的評估成本較低,例如 OpenAI 的 o1-mini 僅需 141.22 美元,但總體而言,推理模型的評估成本仍然偏高。Artificial Analysis 總共花費了約 5,200 美元來評估十幾個推理模型,幾乎是分析 80 多個非推理模型所需費用的兩倍(2,400 美元)。

成本飆升背後的因素

推理模型評估成本高昂的原因主要是它們產生了大量的語元(tokens)。語元是原始文字的基本單位,例如「fantastic」這個詞會被分解為「fan」、「tas」和「tic」。根據 Artificial Analysis 的資料,OpenAI 的 o1 在基準測試期間產生了超過 4400 萬個語元,大約是 GPT-4o 產生的八倍。大多數 AI 公司都是按語元收費的,因此這種成本很容易累積。現代基準測試往往會誘導模型產生大量語元,因為它們包含涉及複雜多步任務的問題。Epoch AI 的高級研究員 Jean-Stanislas Denain 表示:「現在的基準測試更加複雜,儘管每個基準測試的問題數量整體上有所減少。他們經常試圖評估模型執行現實世界任務的能力,例如編寫和執行程式碼、瀏覽網路和使用電腦。」

成本與效能的權衡

隨著時間的推移,最昂貴的模型每個語元的成本也在增加。例如,Anthropic 在 2024 年 5 月發布的 Claude 3 Opus 是當時最昂貴的模型,每百萬輸出語元的成本為 70 美元。同年早些時候發布的 OpenAI 的 GPT-4.5 和 o1-pro 的成本分別為每百萬輸出語元 150 美元和 600 美元。然而 Denain 指出:「隨著模型效能的提升,要達到某一水平的效能所需的成本實際上已經大大降低。但如果你想在任何時間點評估最佳的大型模型,你仍然需要支付更多的費用。」

評估的公正性問題

許多 AI 實驗室,包括 OpenAI,為了測試目的,會向基準測試組織提供免費或補貼的模型存取權。然而一些專家認為,這種做法可能會影響評估結果的公正性。即使沒有操縱的證據,僅僅是 AI 實驗室參與的暗示就可能損害評估評分的完整性。AI 新創公司 General Reasoning 的 CEO Ross Taylor 在 X 上發文表示:「從科學的角度來看,如果你發表了一個結果,而沒有人能夠用相同的模型複製它,這還是科學嗎?它曾經是科學嗎?」

結論

AI 推理模型的效能評估成本飆升不僅反映了技術進步的代價,也提出了關於評估公正性和科學性的重要問題。隨著更多 AI 實驗室開發推理模型,基準測試的成本預計將繼續上升,這對於學術界和獨立研究者來說是一個挑戰。未來,如何在成本與效能之間找到平衡以及如何確保評估的透明度和公正性,將是 AI 領域需要解決的關鍵問題。

machinelearning-AI 推理模型效能評估成本飆升

江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。