馬克思曾在《資本論》中闡述資本主義:“如果有10%的利潤,資本就會保證到處被使用;有20%的利潤,資本就能活躍起來;有50%的利潤,資本就會鋌而走險;為了100%的利潤,資本就敢踐踏一切人間法律。有300%以上的利潤,資本就敢犯任何罪行,甚至去冒絞首的危險。”
以那個時代的經(jīng)濟環(huán)境來看,馬克思認為資本家的獲利上限大概就是3倍利潤。不過如今經(jīng)濟全球化疊加地緣政治沖突的情況下,3倍利潤似乎已難以形容一家企業(yè)發(fā)展的勢頭。
8月16日,《巴倫周刊》資深撰稿人Tae Kim最近在社交媒體上發(fā)布的帖子估計,英偉達每銷售一塊H100 GPU就能獲得高達1000%的利潤。投資銀行公司Raymond James表示:“H100 GPU的起價為3320美元,該公司(英偉達)以25000至30000美元的價格出售這些GPU。盡管我們沒有獲得AI GPU的BoM表單,但我們當(dāng)然相信這只是一個粗略的估計,NVIDIA可能會賺得更多?!?/p>
圖源:profesional review
多個平臺分析師認為,H100的售價遠高于其實際價格,1000%的估算可能還沒有考慮到通貨膨脹的因素,實際數(shù)字可能還要高得多。
事實上,英偉達的GPU并不是第一次暴漲。過去幾年,尤其是2016年-2021年之間,“加密貨幣”的興起為GPU行業(yè)注入了源源不斷的熱錢。盡管2022年末“挖礦”退潮,英偉達曾一度面對銷量危機,但緊隨而來的AI又讓英偉達快速恢復(fù)元氣。
如今英偉達又一次站在風(fēng)口之上,只不過這一次它的利潤率似乎有些恐怖了。10倍利潤的背后,是誰撐起了GPU價格?
誰在搶購H100?
在智能時代,數(shù)據(jù)、算力與算法被稱為基礎(chǔ)三要素,其中算力則是核心基礎(chǔ)。當(dāng)ChatGPT引領(lǐng)全球進入AI時代后,算力稀缺正逐漸成為制約AI發(fā)展的最大瓶頸。而算力,正是GPU等擅長并行計算芯片的最大特點。因此,對算力需求越大,則越需求H100等高算力芯片。
圖源:國泰君安
(1)中美大廠
H100 GPU是英偉達繼A100之后的又一款旗艦GPU,曾經(jīng)A100已經(jīng)被認為是AI服務(wù)器上的“核心主力”。據(jù)OpenAI資料顯示,目前最知名的AI大模型ChatGPT,訓(xùn)練一次13億參數(shù)的GPT-3 XL模型每天需要的全部算力約為27.5PFlop/s,而訓(xùn)練一次1746億參數(shù)的GPT-3模型每天需要的算力約為3640 PFlop/s。即使是在對模型的日常運營上來看,OpenAI仍舊需要每日消耗4800PFlop/s的算力。
這還僅是OpenAI一家的算力需求,國泰君安證券統(tǒng)計,ChatGPT爆火之后,以谷歌、Meta、亞馬遜為首的互聯(lián)網(wǎng)大廠也在跟進。據(jù)谷歌資料顯示,目前已經(jīng)建成包含26000個H100的A3服務(wù)器,還部署了數(shù)十臺TPU V4超級計算機,每臺擁有4096個TPU芯片;亞馬遜官方資料顯示,它們即將推出的EC2超級集群可以擴展至20000個互聯(lián)的H100;Meta資料顯示,亞馬遜云已經(jīng)擁有2000個DGX A100服務(wù)器,配備了超16000個A100 GPU,亞馬遜專家表示未來他們還會采購3萬片H100。
算力對經(jīng)濟的影響 ?圖源:中國通信院,國泰君安
國內(nèi)也涌現(xiàn)出諸如百度文心一言、訊飛星火大模型、360智腦等。在群雄逐鹿的大模型戰(zhàn)爭上,全球算力呈現(xiàn)極度緊缺態(tài)勢,因此,AI服務(wù)器也成為英偉達GPU的最大應(yīng)用領(lǐng)域。
(2)中東
如果將地區(qū)的算力用山峰山谷的形式呈現(xiàn)在世界地圖上的話,我們將看到中美兩國會升起全球最高的兩座山峰。根據(jù)信通院算力白皮書信息顯示,美國、中國、歐洲、日本在全球算力規(guī)模中的份額分別為34%、33%、14%與5%,其中全球基礎(chǔ)算力,美國份額達37%,中國以26%份額排名第二。
美中歐日算力分布的局面,與當(dāng)前世界上經(jīng)濟體量的分布大體相同。畢竟如今一張AI服務(wù)器專屬GPU動輒數(shù)萬美元,沒點“家底”真的是玩不起的。不過說到經(jīng)濟實力,我們似乎忽略了世界上還有一群“錢多到流油”的國家——沙特與阿聯(lián)酋為首的海灣石油大國。
別看如今算力地圖上并無中東國家身影,但很明顯,AI引領(lǐng)的第四次信息革命之下,沒有一個國家想要落后。
據(jù)外媒《金融時報》消息顯示,沙特阿拉伯最近以4萬美元單價購入了至少3000塊英偉達H100 GPU芯片。此外阿聯(lián)酋也同樣購買數(shù)千顆英偉達芯片,并將它們部署在阿布扎比馬斯達爾市的國有技術(shù)創(chuàng)新研究所內(nèi),用于創(chuàng)建了名為“Falcon”的大型語言模型上。消息人士稱阿聯(lián)酋已經(jīng)做出決定,它希望擁有和控制其計算能力和人才,擁有自己的平臺,而不是依賴中國人或美國人。此外,沙特大學(xué)擁有至少200臺滿載A100的服務(wù)器,預(yù)計還將建成并投入使用一臺超級計算機Shaheen III,這臺超級計算機仍舊會采用英偉達的芯片。
簡單總結(jié)一下,當(dāng)ChatGPT憑借一個月的時間狂砍上億用戶數(shù)量來看,全球幾大經(jīng)濟體已經(jīng)開啟“算力大戰(zhàn)”,對高算力AI芯片的需求遠超英偉達的供應(yīng)能力。此外,AI浪潮下,除了中美等國,中東國家如阿聯(lián)酋和沙特也積極參與這一搶購浪潮,意圖借助英偉達H100GPU來推動本國AI技術(shù)的快速發(fā)展。
為什么是H100?
從當(dāng)前的市場占比來看,英偉達已經(jīng)以極其恐怖的占比在GPU領(lǐng)域獲得了顯著優(yōu)勢,在AI服務(wù)器領(lǐng)域已經(jīng)近乎壟斷。在今年3月結(jié)束的GTC大會上,英偉達創(chuàng)始人黃仁勛又身著一身皮衣現(xiàn)身發(fā)布會。會上他自豪的拿著H100 H100 NVLINK芯片,宣布要讓英偉達成為AI中的臺積電。AI的大趨勢無人可擋,既然H100被炒的這么高,那換其他GPU不可以嗎?
H100 是一款針對大模型專門優(yōu)化過的芯片,使用臺積電5nm定制版本制程(4N)打造,單塊芯片包含800億晶體管。H100同時也是全球首款PCI-E 5和HBM 3GPU,一塊GPU的IO帶寬就是40 Terabyte/s。
英偉達H100 GPU? 圖源:STH
對于ChatGPT等大模型的訓(xùn)練來說,算力決定了模型的訓(xùn)練速度,這與GPU的張量核心(NPU)數(shù)量有關(guān),不過其他參數(shù)也深刻影響著大模型的訓(xùn)練效果。
目前H100等專為AI訓(xùn)練設(shè)計并制造的顯卡,均采用HBM內(nèi)存作為GPU的配套存儲。HBM相對傳統(tǒng)顯存來說,其顆粒利用3D封裝的方式上下堆疊在一起,可以有效提升存儲與計算芯片之間的信息交換速率,對于AI大模型這種需要高頻讀取的算法來說,影像更甚。因此,普通GPU,例如英偉達最知名的RTX系列GPU就難以勝任大模型AI的訓(xùn)練任務(wù)。
我們還能從A100到H100升級的參數(shù)上看出AI對于GPU的需求。相對A100,H100有這個更低的緩存延遲和FP8計算能力。HBM可以提升緩存延遲,而提升FP8則是讓H100真正成為一顆“專注”AI的芯片。
FP8指的是8bit的Float數(shù)據(jù)類型,內(nèi)存占用為FP32的1/4,F(xiàn)P16的1/2。FP8被廣泛用于AI訓(xùn)練之中,與FP16相比,F(xiàn)P8格式的訓(xùn)練吞吐量增加4倍,但損失精度不到0.1%。因此,應(yīng)用提升FP8計算可以有效降低模型對內(nèi)存的需求,提升訓(xùn)練速度并降低功耗,直接降低了訓(xùn)練成本。
不過可能有觀眾指出,既然H100更適合AI服務(wù)器,那英偉達的死對頭AMD是否有“平替”呢?
海外獨角獸的一份調(diào)查中顯示,AMD GPU理論上是可行的,但企業(yè)在面對替換風(fēng)險與GPU軟件生態(tài),仍認為選擇英偉達的GPU更為保險。文章中認為,某私有云公司的高管表示,設(shè)備從購買到實際真正運轉(zhuǎn)都需要一定時間,即便只是2個月左右的開發(fā)和調(diào)試時間都意味著比競爭對手更晚進入市場。因此,擁有CUDA生態(tài)的英偉達可以率先占據(jù)開發(fā)者的使用習(xí)慣,形成生態(tài)“護城河”。此外,文中另一觀點認為很多公司的AI大模型訓(xùn)練成本已經(jīng)接近3億美元,沒有人會冒險去大規(guī)模依賴AMD或其他初創(chuàng)公司的芯片。
CoWoS技術(shù) ?圖源:wikichip
其實,記者了解到,目前生產(chǎn)H100等當(dāng)前最先進GPU需要臺積電的CoWoS封裝。目前英偉達早已預(yù)訂了絕大部分該類先進封裝的產(chǎn)能,即使其他廠商想要與英偉達一爭高下,也需要等臺積電擴產(chǎn)才行。
1000%的利潤被誰拿走?
圖源:攝圖網(wǎng)
盡管在全球搶購與其不可替代屬性的加持下,H100的售價已經(jīng)達到了“黑心”的程度,但1000%的利益仍舊高的可怕。究其原因,其實這1000%的利潤率并沒有完全進了英偉達一家腰包。H100從工廠到用戶手中,其實經(jīng)過了不止一道程序。而這一切的原因還要追溯到2022年美國的一則禁令。
2022年9月2日,英偉達對外宣布,已經(jīng)獲得美國政府批準(zhǔn),可以在明年3月前繼續(xù)向美國客戶出口的產(chǎn)品提供A100,可以在明年9月前繼續(xù)履行A100和H100的訂單。
換言之,就在10天之后的2023年9月1如,英偉達A100與H100全系列GPU將被禁止出口到中國。此外根據(jù)美國證券交易委員會通知,英偉達將需要獲得許可才能向中國和俄羅斯出口任何基于最新架構(gòu)的H100、A100或DGX/HGX等系統(tǒng)。
禁令發(fā)出后,盡管中國企業(yè)仍可以通過美政府批準(zhǔn)后繼續(xù)進口H100,事實上中國對于H100的采購早已停止,美國此舉可能僅為了保護在華美資企業(yè)尾單不受損。不過H100的流通,可能不止局限于常規(guī)渠道。
此前曾有諸多報道指出,H100、A100正以一些非常規(guī)渠道從全世界流入中國境內(nèi)。路透社曾采訪過多家中國運營商,他們均表示還能輕松采購少量A100或H100芯片,并通過航空運輸至境內(nèi)客戶手中,因為小批量采購可以更容易規(guī)避制裁與出境監(jiān)管。據(jù)了解,這些供應(yīng)商的進貨渠道遍及全球,他們使用多種身份從官方渠道采購后再流轉(zhuǎn)進入中國。據(jù)了解,通過這種方式“悄悄”進貨的方式,購買價格要比通過常規(guī)途徑進貨貴兩倍,A100的入手價格能達到2萬美元左右。H100由于出品較晚,價格仍不穩(wěn)定,但其售價絕對會高出天際。
因此,盡管目前市場上充斥著超高售價的H100與A100,但這1000%的利潤大概不會被英偉達全部拿走。馬斯克在推特調(diào)侃:“似乎每個人、每條狗都在購買GPU……獲得GPU比獲得毒品還難”。這也似乎從側(cè)面證實了H100售賣的混亂。
不過至今任何一家媒體或都無法估算出具體能有多少H100或A100芯片通過這種方式流入中國。記者認為,盡管美國政府極力阻止美企的高精尖產(chǎn)品出口中國,但從英偉達戰(zhàn)略規(guī)劃中看出,目前中國蓬勃發(fā)展的AI市場已經(jīng)成為英偉達難以放棄的優(yōu)質(zhì)市場。
黃仁勛曾對美國的相關(guān)禁令表示不滿:“拜登政府對半導(dǎo)體技術(shù)實施的出口限制,使英偉達感到‘束手束腳’。英偉達無法在全球最大市場之一的中國開展業(yè)務(wù)?!睘榇?,英偉達已經(jīng)為中國市場推出“專供產(chǎn)品”H800與A800,它們能很好的規(guī)避美政府提出的不合理出口限制,盡管這兩款GPU為100類型的閹割版本。
盡管在參數(shù)上,A800與H800難以與原版型號相提并論,但我們?nèi)阅芸闯鲇ミ_對于中國市場的重視。換個角度看,如今H100與A100的種種“地下交易”,英偉達官方是不會出全力去限制的。
寫在最后
AI浪潮中,中美紛紛搶購H100,以滿足日益增長的AI算力需求,尤其是大模型建設(shè),推動了H100的需求和價格上漲。但AI并不是中美兩國的專利,海灣石油國家也積極參與AI領(lǐng)域競爭,試圖在全新的信息革命中實現(xiàn)對中美的“彎道超車”。而H100作為針對服務(wù)器的GPU,性能和獨特的生態(tài)系統(tǒng)使其難以替代,又恰逢美國對中國的芯片封鎖,讓更多的H100通過非常規(guī)渠道在全球流轉(zhuǎn)。種種原因下,H100這顆 “得天獨厚”的GPU讓廠商與整個銷售鏈條上的掮客們收獲了恐怖的1000%利潤。
其實,說來說去,關(guān)鍵原因還是在于沒人能夠挑戰(zhàn)英偉達的地位。如今AI時代到來,或許英偉達還將借著AI東風(fēng)讓本就高不可攀的生態(tài)壁壘更加難以挑戰(zhàn)。但依舊是AI,這項技術(shù)仍舊賦予了其他廠商,甚至國家和地區(qū)實現(xiàn)“彎道超車”的能力。但就目前來說,英偉達短期在AI的地位無可替代。