研究人員為超級計算機開發開源混合精度基準測試工具
2023 年 9 月 25 日,《科學熱訊》(Science X)報導,美國奧克崗國家實驗室(Oak Ridge National Laboratory)的 Analytics and AI Methods at Scale 團隊開發了混合精度效能測試工具 OpenMxP,該工具為超級計算機的高效能測試提供了開源軟體解決方案。
現有挑戰
在之前的計算科學中,以雙精度(64 位)計算為主的計算機系統主導著領域的發展。然而隨著 GPU 進一步發展,低精度(16 或 32 位)的混合精度計算開始嶄露頭角,特別適用於資料科學和人工智慧領域,因其在速度上可以提供所需的計算準確性。然而迄今為止,在大規模 GPU 加速的超級計算機上測試低精度效能的廣泛開源軟體尚未存在。
為了彌補這一缺失,奧克崗國家實驗室的研究人員開發了一款跨平臺基準測試軟體包 OpenMxP。這個開源軟體包針對 GPU 加速的超級計算機進行低精度效能測試,並提供給其他計算設施使用。
OpenMxP 的優勢
OpenMxP 實現了 HPL-MxP 基準測試任務,該測試任務在 2019 年出現,已成為超級計算機混合精度效能測試的行業標準。這個基準測試問題需要解決一個密集的線性方程組,但不提供解決問題的軟體。這需要基準測試人員自行開發軟體來解決問題。
之前,奧克崗國家實驗室的 Summit 超級計算機使用的 GPU 晶片供應商開發並執行了專有程式碼,以評估其在低精度計算方面的速度。但由於 Frontier 超級計算機使用的是 AMD 的 CPU 和 GPU,所以需要開發新的基準測試程式碼來正確執行在下一代晶片上。
為理解決這個問題,AAIMS 團隊的 Feiyi Wang 提議組建一支團隊來進行測試。他們於 2021 年 4 月開始研究基準測試問題本身,並與曾經處理類似問題的科學家協商。
當時,Frontier 計算機還未完工,因此他們需要在還無法測試的機器上開發程式碼。但當 OpenMxP 於 2021 年中期準備好進行初步測試時,他們有一個非常快速的系統 Summit,可以作為測試平臺。
在 2022 年 5 月,Frontier 準備好執行 OpenMxP 進行基準測試,取得了 6.86 艾克斯浮點運算(每秒執行 68.6 億億次浮點運算),位居 2022 年 HPL-MxP 榜首。一年後,它的測試結果達到 9.95 艾克斯浮點運算,再次名列第一。LUMI 超級計算機也使用 OpenMxP 進行基準測試,在 2023 年 6 月評比中名列第二。
推動科學發展
開源混合精度基準測試工具 OpenMxP 的真正價值在於提供 GPU/CPU 超級計算機執行狀況的洞察,幫助透過微小的程式設計改變來提升計算速度。OpenMxP 還可以向計算科學家展示使用支援混合精度計算的 GPU 系統的優勢。
OpenMxP 本身也可以作為一個工具,以前所未有的速度和能源效率解決科學和工程領域的特定問題。OpenMxP 解決的 HPL-MxP 基準測試問題是大型線性方程組,這也是科學和工程應用的基礎。奧克崗國家實驗室的團隊使用 OpenMxP 作為 TwoFold 軟體堆疊的求解器,該軟體堆疊可以預測給定藥物分子與病原體的結合力,並預測其如何與靶標結構的三維結合。TwoFold 作為一項 COVID-19 相關的 HPC 研究,被美國計算機學會提名為 2022 年 Gordon Bell 特殊獎的決賽入選作品。
Matthew Dawkins 商業發展分析師指出,"我們的目標是推動科學的發展,為科學家提供一個開源的軟體平臺,他們可以在其基礎上進行擴充套件和修改,以解決他們所面臨的科學問題。由於我們處於極端規模和尺寸,OpenMxP 可以幫助以更快的方式解決最大規模的科學問題。"
結論
奧克崗國家實驗室的研究人員開發的開源混合精度基準測試工具 OpenMxP 填補了超級計算機低精度效能測試的空白。該工具不僅為超級計算機的評估和操作提供了實用性,還可以改進超級計算機的效能,提供計算速度的大幅提升。同時 OpenMxP 也是科學和工程領域解決問題的一個工具,為科學的推進提供了支援。
該開源軟體將有助於促進超級計算機和資料科學領域的技術創新,同時也提供了一個為其他超級計算設施進行低精度效能測試的通用解決方案。OpenMxP 的應用和發展將為科學和工程領域帶來更大的突破,並提高計算科學的效率和準確性。
延伸閱讀
- 用高效 AI 測試健康任務!Hugging Face 釋出基準測試
- Ghost 可能加入 fediverse,成為開源 Substack 競爭對手
- Meta 宣布其 Llama 3 開源 LLM 將在下個月推出
- Fireworks.ai 開源 API 讓生成式人工智慧適用於任何開發者
- 為何伊隆·馬斯克的 AI 公司“開源”Grok 很重要——以及不重要的原因
- 「xAI 開源 Grok 基模型,但沒有任何訓練程式碼」
- SpaceX 檔案外洩,TikTok 禁令加速推動,Grok 計畫轉為開源
- 穆斯克的 Grok 開源了,Reddit 更新了 IPO 申報書
- 為什麼大多數人工智慧基準測試結果如此不足見解
- Ubicloud 計畫打造一個開源替代 AWS 的方案