
<div><h2>資料中心應對高度計算需求問題的思考與解決方法</h2>
<h3>背景</h3>
自從 ChatGPT 七個月前問世以來,它已成為生成式人工智慧(AI)的關注焦點。ChatGPT 是建立在 OpenAI 的 GPT 系列基礎上的聊天機器人,透過動態對話提供了探索機器智慧潛能的機會,不僅可以增強個人的專業和個人問題,而且企業也開始加倍利用 AI 和機器學習(ML)來保持競爭優勢。
<h3>企業面對大型計算需求的挑戰</h3>
處理下一代工作負載所需的計算量巨大,企業需要在其資料中心中進行大規模平行計算(MPP)。MPP 是一種高效能計算(HPC)技術,它將復雜的任務(如查詢複雜資料庫)分解為許多較小的任務,然後在不同節點上同時執行。最後將這些結果結合起來獲得最終輸出。
然而很多資料中心使用的是通用處理器,它們可以處理傳統工作負載,但無法同時執行多個複雜的計算,例如大矩陣相乘和複雜向量相加。這個缺點推動企業重新思考他們的資料中心,專注於使用專門的處理器,如 GPU。
<h3>專門硬體加速的趨勢</h3>
一個值得注意的趨勢是,企業越來越多地將工作負載轉移到專門的硬體上。諮詢公司 Protiviti 的技術諮詢副主任 Brandon Wardlaw 表示:“通用計算節點的重型 CPU 容量已經不足以應對這些下一代工作負載,而在 GPU 原始裝置製造商和更專門的 FPGA(現場可程式設計門陣列)和 ASIC(特定應用整合電路)硬體供應商之間,出現了大量創新來支援高度平行計算,用以訓練模型。”
其中一家推動專門硬體加速的公司是 Nvidia。其資料中心平臺提供了多種 GPU 選項,從高效能的 H100 到入門級的 A30,以滿足現代工作負載的強大計算需求,從科學計算和研究到大型語言模型的訓練,實時分析機器效能和生成法律材料。
例如,在厄瓜多,電信公司 Telconet 正在使用 Nvidia 的 DGX H100,這是一個結合了八個 H100 GPU 的系統,用於構建智慧影片分析系統以實現城市安全和支援不同西班牙方言的語言服務。在日本,網際網路服務公司 CyberAgent 也正在使用這些高效能 GPU,用於建立智慧數位廣告和名人虛擬人物。而日本最大的商業集團之一三井物產也利用 DGX H100,使用多達 16 個該系統(128 個 GPU)進行高解析度分子動力學模擬和生成型 AI 模型,從而加速藥物研發。
<h3>GPU 加速面臨的挑戰</h3>
儘管基於 GPU 的加速方案滿足了各個行業的工作負載需求,但它必須同時解決一些局限性。首先實施這些附加卡會帶來重大的物理挑戰,因為傳統的一個或兩個機架單元“pizza-box”伺服器簡單無法容納它們。其次這種高密度計算硬體還導致高功耗(DGX H100 的最大耗電量預計為約 10.2 千瓦),並產生操作瓶頸,增加了資料中心的總擁有成本。
為理解決這個問題,Wardlaw 建議在其他地方進行相應的補償,比如使用高核心數的 x64 晶片組增加計算密度,並將通用工作負載遷移到這些平臺上。他還強調採取更積極的方法進行熱管理,最佳化資料中心的佈局,以提高冷卻效率和效能。
根據 Vantage Data Centers 的銷售和解決方案工程副總裁 Steve Conners 的說法,支援 HPC 的關鍵是擺脫空氣冷卻的模式。這是因為必須控制 CPU 和 GPU 的溫度,而唯一的辦法就是使用比空氣更好的熱交換介質,例如液體輔助冷卻。
<h3>其他選擇</h3>
除了專門硬體之外,企業還可以考慮使用基於軟體的加速方案來支援資料中心中的某些下一代工作負載。例如,德克薩斯州的 ThirdAI 提供了一種基於雜湊算法的引擎,可以減少計算量,使通用的 x86 CPU 能夠訓練深度學習模型,同時達到某些 GPU 的效能。這不僅更具成本效益(根據工作負載而定),而且創造了較少的操作和物理障礙。
此外還有最佳化的選擇,如使用知識蒸餾等技術來減少模型的大小,並使其更容易支援。這種方法可能會帶來一些準確性損失,但 Undetectable AI 的 CTO 和聯合創始人 Bars Juhasz 表示該公司的蒸餾模型比基礎模型快了 65%,而保留了 90%的準確性,是一個值得優先考慮的折衷方案。
Juhasz 指出:“擴充套件模型的效能可以類比現有技術堆疊,即水平和垂直兩種方法。增加更多的 GPU 相當於水平擴充套件,而最佳化模型和使用加速軟體則相當於垂直擴充套件。改善效能的關鍵是理解模型[工作負載]的技術細節,並選擇適合的加速選項。”
根據 Wardlaw 的說法,如果 AI/ML 工作負載對企業來說是一個“始終執行”的操作,擁有並在資料中心中管理專門的硬體將具有成本效益。然而如果這些工作負載不是“始終執行”的操作,或者企業無法以合理的規模或頻率執行這些工作負載以彌補投資成本,那麼選擇替代的加速方法或者基於 IaaS(基礎設施即服務)模型提供的專為 AI/ML 最佳化的硬體,可能更為合適。
<h2>總結與建議</h2>
隨著企業對下一代工作負載的需求越來越大,資料中心必須找到應對這些計算需求的有效方法。專門硬體加速是一種明確的趨勢,尤其是 GPU 的應用在各個行業中的廣泛使用。然而這種加速方案也存在一些挑戰,例如物理佈局和高能耗。
建議企業在選擇加速方案時,要根據自身的需求和情況來進行評估。如果 AI/ML 工作負載是持續執行的,且有足夠的規模和頻率,那麼在資料中心內擁有和管理專門的硬體可能是一種具有成本效益的選擇。然而如果不具備這樣的條件,那麼考慮替代的加速方法或者尋找專業的提供商或雲服務提供商的 IaaS 模型中提供的 AI/ML 最佳化硬體,可能是更明智的選擇。
此外企業在提高計算資源密度、最佳化熱管理以及適應新技術和解決方案方面應該保持積極性。這需要專業技術人員的努力以及對資料中心架構的不斷改進和最佳化。
應用新技術和解決方案可以幫助企業迎接下一代工作負載帶來的計算需求挑戰,並確保其在競爭激烈的市場中保持競爭力。在變革中的資料中心領域,持續的創新和不斷追求進步是至關重要的。</div><div>Technology-解鎖資料中心,力量,高效能計算技術,資料中心,資料處理,雲端計算,</div>
延伸閱讀
- IBM 以 64 億美元收購 HashiCorp 成功獲英國批準!
- 微軟刪除 AI 資料中心租賃,背後原因何在?
- 阿聯酋斥資數十億在法國打造人工智慧資料中心!
- 資料中心運營商 DataBank 獲得 2.5 億美元投資 驚豔市場!
- 「Amperesand 瞄準資料中心,固態變壓器成為下個大客戶!」
- 「OpenAI 攜手 SoftBank 與 Oracle,共同打造 5000 億美後設資料中心宏圖!」
- 蘋果聯手技術聯盟 掀起下一代 AI 資料中心革命!
- 資料中心電力需求將在未來五年內翻倍,科技界震撼警告!
- 亞馬遜網路服務宣布在墨西哥投資 50 億美元,並啟動全新伺服器區域!
- 「CoreWeave 首度進軍國際市場!英國啟用 190 億美元 AI 計算中心」