網路議題

MLPerf 3.1 引入大型語言模型基準測試,挑戰推理能力

MLCommons 近日宣布,他們將 MLPerf AI 基準測試套件擴充套件至大型語言模型(LLMs)的推理能力測試,並新增了用於機器學習工作負載的儲存系統效能基準測試。MLCommons 是一個中立、多利益相關者組織,旨在透過 MLPerf 基準測試提供公平的報告平臺,讓廠商能夠報告人工智慧效能 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

MLPerf 3.1 引入大型語言模型基準測試,挑戰推理能力
MLCommons 近日宣布,他們將 MLPerf AI 基準測試套件擴充套件至大型語言模型(LLMs)的推理能力測試,並新增了用於機器學習工作負載的儲存系統效能基準測試。MLCommons 是一個中立、多利益相關者組織,旨在透過 MLPerf 基準測試提供公平的報告平臺,讓廠商能夠報告人工智慧效能的不同方面。今天公佈的 MLPerf 推理 3.1 基準測試結果是今年的第二次重大更新,上一次更新是在今年 4 月份公佈的 3.0 版本。MLPerf 3.1 基準測試結果包括超過 13,500 個效能測試結果。提交測試結果的公司包括:ASUSTeK, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel-Habana-Labs, Krai, Lenovo, Moffett, Neural Magic, Nvidia, Nutanix, Oracle, Qualcomm, Quanta Cloud Technology, SiMA, Supermicro, TTA 和 xFusion。

持續提升效能

從每一次 MLPerf 基準測試的更新結果中,我們可以看到供應商的效能不斷提升,而 MLPerf 3.1 版本的推理結果也延續了這一趨勢。雖然推理基準測試有多種測試型別和配置,但 MLCommons 的創辦人和執行董事 David Kanter 在新聞發布會上表示許多提交的測試結果在 3.0 版本的基礎上效能提升了 20% 或更多。

基於現況擴充套件的 MLPerf 3.1 推理基準測試

Kanter 說:“我們正不斷更新基準測試套件,以反映當前狀況。我們本季度全新推出的 LLM 基準測試,真正反映了生成式人工智慧大型語言模型的爆發性增長。”此前,MLCommons 已嘗試測試 LLM 的效能表現。在去年 6 月份,MLPerf 3.0 基準測試首次增加了 LLM 測試專案。然而訓練 LLMs 和進行推理任務是兩個非常不同的任務。Kanter 解釋道:“關鍵差異之一是,在推理過程中,LLM 基本上執行的是生成任務,因為它會寫出多個句子。”MLPerf 的 LLM 訓練基準測試使用了 GPT-J 6B(60 億引數)模型,在 CNN/Daily Mail 資料集上進行文字摘要。Kanter 強調雖然 MLPerf 的訓練基準測試聚焦於非常大型的基礎模型,但推理基準測試所執行的任務代表了更廣泛的使用案例,更多組織可以應用。“許多人簡單地沒有運算能力或資料來支援一個真正大型的模型,”Kanter 說,“我們的推理基準測試執行的實際任務是文字摘要。”

推理不僅僅依賴於 GPU -- 英特爾的觀點

儘管高階 GPU 加速器通常在 MLPerf 的訓練和推理排行榜上佔據領導地位,但英特爾表示這些頂級成績不是所有組織都追求的目標。英特爾的矽片在 MLPerf 推理 3.1 基準測試中表現出色,提交了 Habana Gaudi 加速器、第四代英特爾至強處理器和英特爾至強處理器 Max 系列的結果。據英特爾表示第四代英特爾至強處理器在 GPT-J 紐聞摘要任務中表現優異,能以實時伺服器模式每秒摘要一篇段落。在 MLCommons 新聞發布會的提問環節中,英特爾人工智慧產品高級總監 Jordan Plawner 回答到,組織在推理方面需求的多樣性。“最終企業和組織需要在生產環境中部署人工智慧,這當然需要各種型別的計算,”Plawner 說,“能夠展示如此多軟硬體代表,能夠在各種型別的計算平臺上執行推理(inference),這實際上是下一步市場發展的領先指標,即擴充套件人工智慧模型,而不僅僅是構建模型。”

Nvidia 壯大 MLPef 推理實力,更多可期

儘管英特爾強調了 CPU 在推理方面的價值,Nvidia 的 GPU 在 MLPerf 推理 3.1 基準測試中表現出色。這次 MLPerf 推理 3.1 基準測試是首次使用 Nvidia 的 GH200 Grace Hopper 超級晶片。Grace Hopper 可透過整合 Nvidia 的 CPU 和 GPU 最佳化 AI 工作負載。“Grace Hopper 表現強勁,與我們的 H100 GPU 相比,效能提高了多達 17%,我們已經在整體領域實現了領先地位,”Nvidia 的 AI 總監 Dave Salvator 在新聞發布會上表示。Grace Hopper 設計用於處理最大且要求最高的工作負載,但這並不是 Nvidia 的唯一目標。Nvidia 還強調了 L4 GPU 在 MLPerf 推理 3.1 測試中的優異表現。“與本輪提交的最佳 x86 CPU 相比,L4 的效能提高了多達 6 倍。”Salvator 說。 總之 MLCommons 的 MLPerf 3.1 推理基準測試不僅持續提升了供應商的效能,還引入了對大型語言模型的測試。無論是英特爾還是 Nvidia,它們都在向市場展示不同計算平臺在推理任務中的價值。推理能力的不斷進步將推動更多組織在實際應用中部署人工智慧模型。然而我們也需要關注在部署人工智慧時所需的計算資源和資料,以便更多組織能夠受益於這一技術的發展。
Challenge-MLPerf,3.1,大型語言模型,基準測試,推理能力
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。