工具分享

研究人員為超級電腦開源開發混合精度基準測試工具

研究人員開發開源混合精度基準測試工具,用於超級電腦背景介紹在 2021 年,當世界上第一臺 Exascale 超級電腦 Frontier 在奧克嶺國家實驗室的領導計算設施進行組裝時,對於它在混合精度計算上的效能理解仍然是一個困難的問題。這種理解上的空白不是因為疏忽,而是反映了在計算科學領域中,以雙精 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

研究人員為超級電腦開源開發混合精度基準測試工具

研究人員開發開源混合精度基準測試工具,用於超級電腦

背景介紹

在 2021 年,當世界上第一臺 Exascale 超級電腦 Frontier 在奧克嶺國家實驗室的領導計算設施進行組裝時,對於它在混合精度計算上的效能理解仍然是一個困難的問題。這種理解上的空白不是因為疏忽,而是反映了在計算科學領域中,以雙精度為主的系統在幾乎整個歷史上一直佔主導地位。而以 16 位或 32 位精度計算的混合精度算法,通常由 GPU 進行計算,可以在更快的速度下提供所需的精度,尤其適用於資料科學和人工智慧。然而在 2012 年奧克嶺國家實驗室的 Titan 系統首次大規模部署以來,尚未有廣泛可用的開源軟體來測試 GPU 加速超級電腦上低精度效能。因此奧克嶺國家實驗室的研究人員開發了一個新的跨平臺基準測試軟體,並在 2022 年 5 月 Frontier 的推出之際將其作為開源程式碼提供給其他計算設施使用,這個軟體就是 OpenMxP。

開源混合精度基準測試工具

OpenMxP 實現了 HPL-MxP 基準測試任務,該任務於 2019 年提出,是衡量超級電腦系統混合精度效能的行業標準。HPL-MxP 提出了一個要解決的問題──一個密集的線性方程組──但並未提供解決這個問題的軟體,這需要基準測試人員自行開發。過去,在奧克嶺國家實驗室的 Summit 超級電腦中,GPU 晶片供應商開發和執行了自己的專有程式碼,以評估它們在進行混合精度計算時的速度。奧克嶺國家實驗室的 Feiyi Wang 表示:“過去,這種基準測試通常由供應商或整合商進行,他們會開發自己的程式碼,這是他們區分自己並提供獨特競爭優勢的‘祕密武器’。他們執行這個程式碼,我們就按照它們的結果進行評估。”但對於 Frontier 來說這不再是一個選擇,因為它由 AMD 的 CPU 和 GPU 提供動力,所以需要開發新的基準測試程式碼,以在下一代晶片上正確執行。當時,NCCS 主任 Georgia Tourassi 提出了關於奧克嶺國家實驗室是否能自行執行基準測試的問題,Wang 提議組建一個團隊來實現這一目標。他們從 2021 年 4 月開始研究基準測試問題本身,並諮詢曾在類似問題上工作過的科學家的意見。AAIMS 小組的 OpenMxP 專案技術負責人 Mike Matheson 說:“我們沒有這類問題的經驗,所以我們遇到了一些意料之外的軟體問題。你總是期望 Message Passing Interface(MPI)在你腦海中執行的方式,實際上確不是那樣。”他說:“因此我們嘗試一些方法,但偶爾會發現不能執行,然後我們會與其他人交流,再嘗試其他方法。我們一直在探索前進的路線,試圖找出真正有效的方法。這是一個學習過程──我們只能透過實踐來獲得。”幸運的是,Frontier 組裝工作仍需要很多月的時間才能完成。不幸的是,這也意味著他們需要為他們尚不能在其上測試的機器開發程式碼。但是一旦 OpenMxP 在 2021 年中期準備好進行初始執行,團隊確實有一個非常快速的系統作為測試平臺,即使沒有 Exascale 級別的速度。Wang 表示:“我們的目標是 Frontier 系統,但那時候 Frontier 實際上還不存在。所以,我們利用現有的資源,也就是 Summit。這實際上是一個好事,因為一旦我們有一個穩定的系統開始執行,可以在這個規模上執行我們的程式碼並進行調整,我們的程式碼就會經過實戰測試。我們知道它能夠擴充套件,然後剩下的工作就是為 Frontier 進行適應或準備。”2022 年 5 月,Frontier 和 OpenMxP 都準備妥當。Frontier 的初始混合精度基準測試達到了 6.86 Exaflops,把它排在 2022 年 HPL-MxP 榜首。一年後,它又達到了 9.95 Exaflops,再次排名第一。歐洲高效能計算聯合企業的 LUMI 超級電腦也使用 OpenMxP 進行了 HPL-MxP 基準測試,並在 2023 年 6 月的排名中位列第二,僅次於 Frontier。

工具的多功能性

OpenMxP 的真正價值並不在於為競賽作品打分。這個軟體工具最終提供混合 GPU/CPU 超級電腦操作的洞察力,幫助透過揭示程式設計中的微小變化如何帶來計算速度的飛躍來提高它們的效能。OpenMxP 所展示的極快速的結果還可以向計算科學家們展示使用具備混合精度計算能力的 GPU 裝置的優勢。Matheson 說道:“許多模擬都在解決大範圍的方程組,傳統上都是使用雙精度。具體的方法是研究人員拿出錘子去解決他們熟悉的道路。在過去是有意義的,因為沒有專門的硬體。”Matheson 繼續說:“但是隨著所有這些比 CPU 更快地進行低精度計算的 GPU 的出現,這使得新的解決方案變得有吸引力。”此外 OpenMxP 本身也可以作為解決科學和工程中某些問題的工具,以前所未有的速度和能源效率。OpenMxP 解決的 HPL-MxP 基準測試問題包含大型的線性方程組,這也是科學和工程應用的基礎。在 2022 年,ORNL 團隊(包括 NCCS 研究科學家 Wang、Matheson、Hao Lu 和 Jens Glaser)使用 OpenMxP 作為 TwoFold 的解決方案。TwoFold 是一個預測特定藥物分子與病原體結合程度以及預測其附著到目標的 3D 結構的軟體堆疊。其中的 TwoFold 被計算機機構協會提名為 2022 年基於高效能計算(HPC)的 COVID-19 研究的 Gordon Bell 特別獎候選專案。 Matheson 表示:“我們真正想做的是透過提供給科學家們一個他們可以建立和修改以解決自己科學問題的開源軟體。由於我們正處於極端規模和極端大小,OpenMxP 在更快的方式上幫助解決最大的科學問題。”

來源:https://techxplore.com/news/2023-09-open-source-mixed-precision-benchmark-tool-supercomputers.html

Technology-開源軟體、超級電腦、混合精度、基準測試、研究人員
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。