Nvidia GPU 缺貨成為矽谷的「頂級八卦」

矽谷的頂級八卦：誰能擁有 Nvidia 難以取得、極高價值的 H100 GPU 進行 LLM 模型訓練？根據 OpenAI 前 AI 主管、現任 OpenAI 研究科學家 Andrej Karpathy 在社交網路上的發言，擁有 Nvidia 難以取得、極高價值的高效能運算 H100 GPU 進行語 .... (往下繼續閱讀)

by 江塵
2023/8/4
17 分鐘閱讀時間

A- A A+

文章目錄

矽谷的頂級八卦：誰能擁有 Nvidia 難以取得、極高價值的 H100 GPU 進行 LLM 模型訓練？

根據 OpenAI 前 AI 主管、現任 OpenAI 研究科學家 Andrej Karpathy 在社交網路上的發言，擁有 Nvidia 難以取得、極高價值的高效能運算 H100 GPU 進行語言模型（LLM）訓練的公司，成為了矽谷最熱門的話題。他表示這些資訊在矽谷當前非常熱門。

Karpathy 的評論正好適逢與 GPU 存取相關問題被討論於大型科技公司的年度報告之際。在微軟近期發布的年度報告中，公司向投資者強調 GPU 是其快速增長的雲業務的「關鍵原材料」，並將有關 GPU 的詞彙新增到了可能導致服務中斷的「風險因素」中。

Karpathy 在社交網路 X（以前的 Twitter）上轉發了一篇在 Hacker News 上熱傳的部落格文章。這篇文章推測「小型和大型雲服務提供商大規模 H100 叢集的容量正在枯竭」，並且預計 H100 的需求將持續增加，至少直到 2024 年底。文章的作者猜測，OpenAI 可能需要 5 萬個 H100，Inflection 需要 2.2 萬個，Meta 可能需要 2.5 萬個，而「大型雲服務提供商可能每個（包括 Azure、Google Cloud、AWS 和 Oracle）需要 3 萬個」。Lambda、CoreWeave 和其他私有雲可能需要合計 10 萬個。作者還提到一些金融公司正在進行部署，從數百個到數千個 A100 或 H100，其中包括 Jane Street、JP Morgan、Two Sigma 和 Citadel 等公司。

作者指出，這些估計值僅僅是「粗略估算」和「猜測」，並且其中包括多次計算了雲服務提供商和最終客戶將會從雲服務提供商租用 GPU 的情況。但這些估計加起來約為 43.2 萬個 H100，以每個約 3.5 萬美元計算，價值約 150 億美元。這還不包括位元組跳動（TikTok）、百度和騰訊等中國公司，他們也需要大量的 H800。還有一些金融公司正在進行部署，從數百個開始，到數千個 A/H100，其中包括 Jane Street、JP Morgan、Two Sigma 和 Citadel 等公司。

需求激增引發的 GPU 供應短缺

對於大型語言模型的訓練，包括 OpenAI、Anthropic、DeepMind、Google 和 Elon Musk 的 X.ai 等所有大型實驗室，沒有任何可以替代 Nvidia 的 H100 GPU。這對於像 CoreWeave 這樣的雲端新創公司來說是個好訊息，因為他們的 GPU 雲端服務預計可以賺取數十億美元的利潤。並且，Nvidia 當前提供了大量的 GPU，因為 CoreWeave 並未打算自行開發競爭的 AI 晶片。CoreWeave 的 CEO 在接受 VentureBeat 的採訪時表示該公司去年的營收為 3000 萬美元，今年預計可達 5 億美元，而下一年已經簽訂近 20 億美元的合約。CNBC 在六月份的報導中提到，微軟「已同意在多年之內，從新創公司 CoreWeave 購買價值數十億美元的雲端運算基礎設施」。

CoreWeave 的 CEO 透露：「這事情進展非常非常迅速。我們有大量的客戶需求積壓，我們正在努力滿足需求。我們當前在 12 個資料中心進行建設。就像你在三個月前從未聽說過的公司，我們公司正在進行著全球規模最大的基礎設施建設之一。」他還指出，AI 的採用速度是「市場上任何軟體的深度和速度最快的採用」，而用於訓練這些模型所需的特定計算型基礎設施無法跟上這個速度。但 CoreWeave 正在努力：「我們從今年 4 月開始，就將這一代 H100 運算服務提供給全球領先的 AI 實驗室。你將無法在 2023 年第四季度之前從 Google 等公司獲得這種服務。我認為 Amazon 也是如此。」CoreWeave 正在幫助 Nvidia 更快地將其產品投放市場，並「透過在配置方面優於超級大規模雲端計算服務提供商，幫助我們的客戶提取更多的效能」。這也使 Nvidia 對 CoreWeave 進行了投資，成為 Nvidia 唯一一家投資的雲服務提供商。

Nvidia 部門主管表示沒有 GPU 供應短缺，但供應鏈問題仍然存在

在 Nvidia 方面，一位高管表示問題並非 GPU 供應短缺，而是這些 GPU 如何進入市場。Nvidia DGX Systems 部門的副總裁兼總經理 Charlie Boyle 表示 Nvidia 正在「充足生產」，但他說，雲服務提供商之間供應短缺的主要原因是已經預售給客戶的量產數量。他在最近的一次採訪中表示如果一個客戶需要數千個 GPU，這將需要更長的時間，但「我們滿足了大部分需求」。他解釋說，他在過去七年中學到的一點是，這實際上也是供應鏈問題，因為供應商提供的一些零元件可能更難取得。「所以當人們說 GPU 供應短缺時，他們實際上指的是板上的某些元件短缺或積壓，而不是 GPU 本身」。

需求高漲引發的 GPU 供應問題

近年來由於大規模生成式人工智慧（AI）需要大量計算資源，在矽谷引發了對於 GPU 供應的熱烈討論。根據 OpenAI 前 AI 主管，當前在 OpenAI 任職的 Andrej Karpathy 的言論，在矽谷，獲取 Nvidia 難以取得、極高價值的高效能運算 H100 GPU 進行 LLM 模型訓練的公司成為話題中心。他透過社交媒體平臺 X（前 Twitter）上的說法表示此議題成為了矽谷熱門話題。

這一評論恰巧出現在與 GPU 存取相關問題甚至出現在大型科技公司的年度報告中的時刻。在微軟上週公布的年度報告中，該公司向投資者強調 GPU 是其快速增長雲業務的「關鍵原材料」，並在「可能在無法獲得所需設施時導致停電的風險因素」一節中加入了有關 GPU 的內容。

Karpathy 在社交媒體 X 上轉發了一篇在 Hacker News 上瘋狂傳播的部落格文章。該文章推測「大型和小型雲服務提供商的大規模 H100 叢集容量正在耗盡」，並認為 H100 的需求將持續增加至少到 2024 年年底。該文章作者猜測 OpenAI 可能需要 50,000 個 H100，Inflection 需要 22,000 個，Meta 「可能需要 25k」，而「大型雲服務提供商可能每個（Azure、Google Cloud、AWS 以及 Oracle），需要 30k 個」。Lambda、CoreWeave 和其他私有雲可能合計需要 100k 個。作者還提到一些金融公司正在進行從數百個到數千個 A/H100 的部署，其中像 Jane Street、JP Morgan、Two Sigma 和 Citadel 的名字也被提及。

作者指出，這些估計只是「粗略估算和猜測」，而且其中有些重複計算了雲服務提供商和最終租用雲服務提供商 GPU 的客戶。但根據這些估計，總共大約有 432,000 個 H100。以每個約 35,000 美元計算，總價值約為 150 億美元。這還不包括位元組跳動（TikTok）、百度和騰訊等中國公司，它們也需要大量的 H800。此外還有一些金融公司正在進行從數百個開始，到數千個 A/H100 的部署，包括 Jane Street、JP Morgan、Two Sigma 和 Citadel 等公司。

需求飆升引發的 GPU 供應短缺問題

對於大型語言模型訓練而言，無論是 OpenAI、Anthropic、DeepMind、Google 還是 Elon Musk 的 X.ai，都無可替代 Nvidia 的 H100。這對於像 CoreWeave 這樣的雲端新創公司而言是好訊息，因為他們可以從提供 GPU 雲端服務中獲利數十億美元。此外由於 CoreWeave 並不打算建造自己的 AI 晶片與 Nvidia 競爭，因此 Nvidia 也提供大量的 GPU。CoreWeave 的 CEO 在接受 VentureBeat 的採訪時表示該公司去年的營收為 3,000 萬美元，今年預計將達到 5 億美元，並且已經簽訂了接近 20 億美元的合同。CNBC 在 6 月份的報導中提到，微軟「已同意在多年內從新創公司 CoreWeave 購買價值數十億美元的雲端計算基礎設施。」

CoreWeave 的 CEO 表示：「這一切進展非常非常快。我們面臨大量客戶需求堆積，我們正在努力滿足需求。我們當前正在 12 個不同的資料中心進行建設。我正在參與全球範圍內最大規模的基礎設施建設之一，這是一家在三個月前您可能還沒聽過的公司。」他還補充說，人工智慧的採用速度是「市場上所有軟體中最深入和最快速的採用」，而用於訓練這些模型所需的特定型計算基礎設施無法跟上這種速度。但 CoreWeave 正在努力改變這種情況：「從今年 4 月開始，我們的下一代 H100 雲端計算服務已經交到世界頂尖的 AI 實驗室手中。您將不能在第四季度之前從 Google 等公司獲得這一服務。我認為 Amazon 也是如此。」CoreWeave 正在幫助 Nvidia 更快地將其產品推向市場，並且「透過在配置方面優於超級大型雲端計算服務提供商，幫助我們的客戶獲得更好的效能」。這也促使 Nvidia 對 CoreWeave 進行投資，成為 Nvidia 唯一的雲服務提供商投資物件。

Nvidia 部門主管表示 GPU 供應沒有問題，供應鏈問題依然存在

對於 Nvidia 而言，一位主管表示問題並非 GPU 供應不足，而是 GPU 如何進入市場的問題。Nvidia DGX Systems 的副總裁兼總經理 Charlie Boyle 表示 Nvidia 正在「大量生產」，但他表示雲服務提供商之間的供應不足主要是已經預售給客戶的數量所致。他在最近的一次採訪中表示如果一個客戶需要數千個 GPU，那將需要更長的時間，但「我們正在滿足大部分需求」。他解釋說，透過過去七年的經驗，他發現這實際上也是供應鏈的問題，因為供應商提供的一些小型零元件可能更難獲得。「所以當人們說 GPU 供應不足時，他們實際上指的是板上一些零元件的短缺，而不是 GPU 本身」。

SiliconValley-Nvidia,GPU,缺貨,矽谷,頂級八卦

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集