作者:六千
英偉達超越蘋果成為全球最值錢的公司,而市場依舊對英偉達保持樂觀。
與此同時,美國科技公司的服務器集群頻頻曝光。年關將至,巨頭們開始展示自己的AI肌肉,試圖在年底給投資者們一點甜頭。就在埃隆·馬斯克xAI集群首次曝光后,小扎也迫不及待在Meta的業(yè)績發(fā)布會上表示,Llama 4背后服務器集群的實力“比我見過的任何報道中其他人正在做的(規(guī)模)要大”。這番言論無疑是對埃隆·馬斯克“地表最強的AI集群”的正面回應。在科技巨頭們開啟算力競賽時代,英偉達的GPU成為巨頭們的“糧草”。
本文就來看看英偉達的大客戶們AI之戰(zhàn)的囤糧情況。
?01、巨頭血拼H100
“前”地表最強——xAI
2023年7月14日,馬斯克在個人推特賬號宣布新公司定名為xAI,并于同日舉行Twitter空間會議。新成立的xAI公司會與Twitter和特斯拉緊密合作 ,其中一個目標是打造能進行高階邏輯推理的人工智能模型,并超越市面上其他模型。四個月后,xAI宣布推出Grok,稱此模型“最大限度地造福全人類,并將是任何人的強大的研究助理。”2024年9月xAI推出Colossus 100k H100 訓練集群。
馬斯克在 X 上稱,它是“世界上最強大的人工智能訓練系統(tǒng)。此外,它的規(guī)模將在幾個月內翻一番,達到 200k(50k H200x)?!?024年10月,埃隆·馬斯克的新項目 Colossus AI超級計算機第一次被詳細介紹。一則視頻展示了其包含10萬臺GPU集群的內部結構。Colossus 的基本構建模塊是 Supermicro 液冷機架。它由 8 臺 4U 服務器組成,每臺服務器配備 8 個 NVIDIA H100,每臺機架總共有 64 個 GPU。
8 臺這樣的 GPU 服務器加上一臺Supermicro 冷卻液分配單元 (CDU)和相關硬件構成了一個 GPU 計算機架。每個HGX H100之間都夾有1U歧管,為服務器提供所需的液體冷卻。每個機架底部還有另一個Supermicro 4U單元,配備的是冗余泵系統(tǒng)和機架監(jiān)控系統(tǒng)。
Meta:購買35萬個H100
正如前文所說,在Colossus AI計算機視頻流出后,埃隆·馬斯克的“死對頭”扎克伯格在Meta的業(yè)績發(fā)布會上表示自己家的GPU比目前公開的數(shù)量都多。年初,扎克伯格在Instagram上發(fā)表文章稱,計劃在今年年底前向芯片設計商英偉達購買35萬個H100 GPU芯片。Meta首席科學家楊立昆(Yann LeCun)上個月在舊金山舉行的一次活動中強調了GPU對于構建通用人工智能(AGI)的重要性。他說:“如果你認為AGI時代正在到來,你就必須購買更多的GPU。
這是一場人工智能戰(zhàn)爭,而英偉達正在提供武器?!睋?jù)業(yè)內人士介紹,每個英偉達H100芯片售價為25000至30000美元。那么購買35萬個H100的成本在87.5億之間到105億美元之間。如果按照每個服務器配備8個GPU的數(shù)據(jù)估算,Meta將建造超過4.3萬臺服務器;目前市場配備一臺服務器的價格在27萬美金左右,那么2024年Meta的在服務器的設備成本大概是118億美元。
此外,還要配備相應的存儲、網絡、供電、廠房等等其他設施;從成本結構來看(按服務器設備成本占比30%估算),如果Meta在2024年購買的35萬個H100全部按時到貨,且投入使用,那么Meta為H100搭建的數(shù)據(jù)中心投資預計超過350億美元(還不包括后續(xù)運營成本)。顯然扎克伯格希望用35萬個H100芯片為Meta的Llama 4 帶來更強的推理能力和更快的速度。
據(jù)估算10萬個H100的算力峰值可以飆升到198/99 FP8/FP16 ExaFLOPS。來源:semianalysis,半導體產業(yè)縱橫調研
微軟:2023年最大買主
根據(jù)Omdia Research的分析,2023年英偉達的H100大多供應給了大型云服務商。該機構估計,2023年H100最大的買家就是微軟和Meta,預計為15萬個。
來到2024年,微軟將AI芯片的囤貨目標提到了180 萬塊,且將主要來自英偉達。business inside表示,到 2027 財年,微軟預計將在 GPU 和數(shù)據(jù)中心上花費約 1000 億美元。微軟的AI芯片目標顯然不全是H100,但這樣的數(shù)字也足以見得微軟對英偉達的“高需求”。
亞馬遜&谷歌:一邊買,一邊造
相對于本文提到的其他三家公司,亞馬遜和谷歌在購買GPU采購上相對低調。事實上亞馬遜在2023年7月就已經宣布推出基于H100 GPU的虛擬機實例EC2 P5。P5 實例可以組合成稱為 UltraScale 的 GPU 集群,提供高達 20 百億億次浮點運算的總體性能。
每個 UltraScale 集群中可擴展多達 20,000 個 H100 GPU。用戶可以部署可擴展到數(shù)十億或數(shù)萬億個參數(shù)的 ML 模型。同樣在2023年,谷歌也推出了承載26,000 個英偉達H100 GPU 的 A3 超級計算機。A3 最大可提供 26 ExaFlops 的處理能力,可顯著減少訓練大型機器學習模型的所需時間與成本。若用在 AI 推理,A3 的成效更為顯著,若以 A2 的運算效能為基準,A3 領先幅度可達到 30 倍。
作為云巨頭,亞馬遜和谷歌為何在H100的采購上有如此大的數(shù)量差距?一個重要原因是,這兩家巨頭都在“悄悄”發(fā)力自研芯片。亞馬遜開發(fā)的AI專用芯片包括Inferentia和Trainium。據(jù)亞馬遜方面表示,在亞馬遜的促銷日期間,該公司部署了80000個AI芯片實施云計算,以應對其平臺上活動的激增。此外,AWS計算和網絡副總裁戴維·布朗(David Brown)透露:“在某些情況下,該芯片性能相較英偉達可提高40%至50%,因此其成本應該是使用英偉達運行相同型號的一半?!惫雀?a class="article-link" target="_blank" href="/tag/TPU/">TPU 是定制設計的 AI 加速器,針對大型 AI 模型的訓練和推理進行了優(yōu)化。它們非常適合各種使用場景,例如聊天機器人、代碼生成、媒體內容生成、合成語音、視覺服務、推薦引擎、個性化模型等等。
Cloud TPU 能夠針對各種 AI 工作負載(涵蓋訓練、微調和推理)進行經濟高效的擴縮。Cloud TPU 提供了多種功能,可加速領先 AI 框架(包括 PyTorch、JAX 和 TensorFlow)上的工作負載。通過 Google Kubernetes Engine (GKE) 中的 Cloud TPU 集成,無縫編排大規(guī)模 AI 工作負載。利用動態(tài)工作負載調度程序同時安排所有需要的加速器,從而提高工作負載的可伸縮性。尋求最簡單的 AI 模型開發(fā)方法的客戶還可以在全托管式 AI 平臺 Vertex AI 中利用 Cloud TPU。
?02、背后贏家英偉達
英偉達在2023年為H100定下的銷售目標是2024年出貨150萬至200萬臺。根據(jù)英偉達財報,2024年第二季度營收實現(xiàn)翻倍,其中四個大客戶的采購占比占英偉達300億美元營業(yè)額的46%。
出于競爭原因,對四家客戶的身份進行匿名處理。在英偉達公布備受期待的季度投資者報告時提交的10-Q監(jiān)管申報文件顯示,四家客戶貢獻的營業(yè)額約為138億美元。時長猜測。四家人工智能巨頭可能就在亞馬遜、Meta、微軟、Alphabet、OpenAI或特斯拉+xAI之間產生。
微軟、Alphabet(谷歌母公司)、亞馬遜和Meta,四家公司第三季度在數(shù)據(jù)中心設備和其他固定資產上總共投入了590億美元,創(chuàng)下了季度紀錄。這意味著英偉達有望在本季度也交出一張漂亮的答卷。除了以上巨頭,蘋果、OpenAI、中國互聯(lián)網大廠都是英偉達的重要買家,基于這樣的背景。
華爾街分析師對英偉達的看法非常樂觀,機構追蹤的75位分析師中有67位將該股評為“買入”。他們還在繼續(xù)提高預期,根據(jù)匯編的數(shù)據(jù),過去三個月,他們對明年的利潤預測提高了約10%。2024年11月8日,英偉達市值突破3.6萬億美元,刷新了美股歷史。在11月份,英偉達股價已經累計上漲了12%,2024年年初至今,該公司市值已經增長了兩倍。
?03、AI改變芯片市場
11月1日,標普道瓊斯指數(shù)公司公布,將英偉達納入道瓊斯工業(yè)平均指數(shù),取代道指目前的芯片業(yè)成分股英特爾。這次調整標志著人工智能和高性能計算的重要性日益增強。英偉達作為AI GPU的領先供應商,能夠吸引更多投資者關注新興技術,傳統(tǒng)的半導體公司則面臨較大壓力,尤其是在數(shù)據(jù)處理、AI模型訓練等高增長領域。當然,這樣的調整更說明AI正在引導市場投資風向。
上周巨頭業(yè)績后,各家投行陸續(xù)上調了明年整體資本開支。大摩從2700億美金上調到3000億美金。3000億美金,作為對比先后完成6次登月的阿波羅登月計劃共花費239.15億美元;3000億美金的數(shù)字可以在2023年非洲國家GDP排名中位列第4,僅低于埃及(3939億美元)、南非(3777億美元)、尼日利亞(3749億美元)。在人們感慨英偉達時代來臨的時候,或許應該意識到AI時代真的來了。
AI成就了英偉達,AI時代并不會只屬于英偉達。凱文凱利在《5000天后的世界》中預測:在未來的50年里,AI將成為可以與自動化和產業(yè)革命相提并論的,不,應該是影響更為深遠的趨勢。一個新時代,將會由一個新玩家建造。