根據(jù)英偉達(dá)給美國證監(jiān)會(huì)SEC(Securities and Exchange Commission)的申報(bào)備案,“對(duì)中國區(qū)客戶斷供高端GPU芯片”的消息并不完全準(zhǔn)確。
根據(jù)申報(bào)內(nèi)容,2022年8月26日,美國政府通知英偉達(dá)未來向中國(包括香港)和俄羅斯出口的A100和即將推出的H100集成電路實(shí)施了新的許可要求,且立即生效。
原文表達(dá)是:
“On August 26, 2022, the U.S. government, or USG, informed NVIDIA Corporation, or the Company, that the USG has imposed a new license requirement, effective immediately, for any future export to China (including Hong Kong) and Russia of the Company’s A100 and forthcoming H100 integrated circuits. ”
值得斟酌的是這里的措辭,是“實(shí)施新的許可要求”,這與“斷供”有著本質(zhì)的區(qū)別?!皵喙庇胁蝗葜靡傻膹?qiáng)制性,但“許可要求”則是指英偉達(dá)在中國市場提供上述產(chǎn)品需要征得許可,也就是說,經(jīng)由美國政府評(píng)估后,仍存有一定繼續(xù)出售的可能性。
美國證監(jiān)會(huì)文件
對(duì)英偉達(dá)傷害性不大,侮辱性極強(qiáng)?
此次美國政府對(duì)英偉達(dá)的許可證要求中所涉及的產(chǎn)品包括:A100、H100,以及包括A100或H100的DGX系統(tǒng)。這兩款GPU代表了英偉達(dá)官宣產(chǎn)品的最高水平。
A100基于Ampere架構(gòu),發(fā)布于2020年3月,黃仁勛在自家廚房烤箱中端出了這款當(dāng)時(shí)全球最大的7nm芯片,其面積高達(dá)826平方毫米,集成了540億個(gè)晶體管。相比前代產(chǎn)品,實(shí)現(xiàn)了20倍的性能提升,可以同時(shí)滿足AI訓(xùn)練和推理的需求。而DGX A100 AI系統(tǒng)由8個(gè)A100 GPU打造而成,單節(jié)點(diǎn)性能達(dá)到了5 petaflops。
H100發(fā)布于今年3月,基于英偉達(dá)最新的Hopper架構(gòu),集成800億晶體管,采用了臺(tái)積電的4nm工藝。其大規(guī)模訓(xùn)練性能是 A100 的 9 倍,大型語言模型推理吞吐量是 A100 的 30 倍,可以說是英偉達(dá)迄今為止最大的性能提升。H100預(yù)計(jì)今年第三季度開售。
對(duì)于針對(duì)這兩款GPU和相關(guān)DGX產(chǎn)品的許可要求,一位業(yè)內(nèi)人士認(rèn)為“對(duì)英偉達(dá)傷害性不大,但侮辱性極強(qiáng)”。在他看來,A100、H100主要用于云端訓(xùn)練場景,目前主要在一些高端應(yīng)用中有需求,而AI推理市場才是規(guī)模更大的應(yīng)用領(lǐng)域,因此針對(duì)這兩款產(chǎn)品的許可要求,本身不會(huì)波及到更大規(guī)模的客戶群體。但是,由此對(duì)英偉達(dá)產(chǎn)生的約束,可能會(huì)給競爭對(duì)手帶來機(jī)會(huì),這是他所認(rèn)為的“侮辱性”所在。
此外,由“許可要求”所產(chǎn)生的連鎖反應(yīng),可能是需要英偉達(dá)和中國客戶所擔(dān)心的。由于需要征得許可要求,就意味著英偉達(dá)要將自己的客戶名單提供給美國政府,由其評(píng)估是否發(fā)放許可。
這是否會(huì)暴露英偉達(dá)的市場動(dòng)向或商業(yè)路線圖?更進(jìn)一步說,一旦英偉達(dá)提供,會(huì)不會(huì)導(dǎo)致有這一高端需求的企業(yè)出現(xiàn)在美國的“名單”之上?這可能是未來的采購中,買賣雙方都需要“掂量”的。
英偉達(dá)在中國的高端GPU之路受阻?
據(jù)了解,這一許可證要求不僅涉及現(xiàn)有的A100、H100和相應(yīng)的DGX系統(tǒng),并且還將涉及英偉達(dá)未來的高端GPU芯片,其峰值性能和芯片間的I/O性能,只要是超出A100閾值的,都在許可證所要求的行列中。
也就是說,不只是現(xiàn)有的產(chǎn)品,在規(guī)劃中的更為高端的GPU產(chǎn)品都將面臨同樣的挑戰(zhàn)。
那么,對(duì)于英偉達(dá)及其客戶來說,是否還有一定的“回旋余地”?
根據(jù)英偉達(dá)給SEC的申報(bào)內(nèi)容,他們正在與中國客戶接觸,并尋求“用不受許可證要求的產(chǎn)品”來滿足他們的計(jì)劃或未來的購買需求。當(dāng)然,如果客戶確實(shí)需要許可要求中所涵蓋的產(chǎn)品,英偉達(dá)也將為客戶去申請(qǐng),但無法保證美國政府為任何客戶授予任何豁免或許可,也無法確保許可的及時(shí)性。
申報(bào)內(nèi)容原文如下:
the Company is engaging with customers in China and is seeking to satisfy their planned or future purchases of the Company’s Data Center products with products not subject to the new license requirement. To the extent that a customer requires products covered by the new license requirement, the Company may seek a license for the customer but has no assurance that the USG will grant any exemptions or licenses for any customer, or that the USG will act on them in a timely manner.
不過,一位業(yè)內(nèi)人士大膽推測,或許可以通過軟件或硬件手段的調(diào)整,能夠在不觸發(fā)許可要求的范圍內(nèi)保證技術(shù)的正常流通,以確保原有科技基礎(chǔ)設(shè)施的運(yùn)轉(zhuǎn),為有利于社會(huì)的科技發(fā)展提供正常支持。
英偉達(dá)GPU上有效的軟硬件配合一直是廣受用戶推崇的一大優(yōu)勢(shì),通過軟件優(yōu)化,可以更好地發(fā)揮硬件的算力和性能。不過,既然軟件可以提升硬件效能,那么是不是也可以通過軟件調(diào)整,去降低硬件性能,使之“恰好”低于A100的閾值?
別忘了英偉達(dá)之前就這樣操作過。當(dāng)時(shí),為了保證GPU顯卡真正用于游戲市場,而不是被作為以太坊挖礦之用,英偉達(dá)就對(duì)當(dāng)時(shí)的RTX 3060進(jìn)行了軟件設(shè)計(jì),一旦檢測到以太坊加密貨幣挖掘算法,就會(huì)對(duì)其產(chǎn)品進(jìn)行效率降低,將其哈希率(加密貨幣挖掘效率)限制在實(shí)際效率的50%左右。
同時(shí),如果配合足夠快的量產(chǎn)節(jié)奏,也可以對(duì)原有的硬件設(shè)計(jì)調(diào)整后重新封裝量產(chǎn),以新的產(chǎn)品系列上市,是否也具有一定的可行性?
中國市場GPU之外的xPU迎來利好?
在AI訓(xùn)練過程中,需要借助已有的大量數(shù)據(jù)樣本進(jìn)行學(xué)習(xí),對(duì)計(jì)算的精度要求較高,因此要求訓(xùn)練芯片要具備強(qiáng)大的單芯片計(jì)算能力,目前GPU芯片普遍被認(rèn)為適合于承擔(dān)訓(xùn)練負(fù)載。
隨著AI應(yīng)用的逐步豐富,AI大模型的突破被認(rèn)為是進(jìn)一步增強(qiáng)AI通用性的一種路徑,也是當(dāng)前支持AI基礎(chǔ)研究和產(chǎn)業(yè)化落地的關(guān)鍵。另一方面,工業(yè)數(shù)字孿生等應(yīng)用場景開始著力打造工業(yè)元宇宙,推動(dòng)數(shù)實(shí)融合、數(shù)字化轉(zhuǎn)型的進(jìn)程。這些都離不開高端算力和龐大算力平臺(tái)的支撐。
根據(jù)信通院的統(tǒng)計(jì)數(shù)據(jù),我國算力市場2018-2020年每年增速保持在40%以上,且智能算力占比逐年提升。在如此蓬勃、一路向好的市場環(huán)境中,需求總是存在的,如果英偉達(dá)由此受到?jīng)_擊,誰會(huì)有望分食蛋糕?
結(jié)合英偉達(dá)約一周前發(fā)布的第三財(cái)季展望,預(yù)計(jì)最新下達(dá)的許可要求可能會(huì)影響它在中國市場約4億美元的潛在收入。這或許就是其他玩家的潛在蛋糕規(guī)模。
首先在國際廠商方面,英特爾面向數(shù)據(jù)中心的Flex系列 GPU(曾用代號(hào)Arctic Sound)剛剛宣布已經(jīng)就緒,將在未來幾個(gè)月內(nèi)開始交付。
其次,對(duì)于正在成長中的國產(chǎn)GPU廠商和其他AI加速芯片廠商,未嘗不是一個(gè)機(jī)會(huì)。
數(shù)據(jù)中心要求絕對(duì)的穩(wěn)定性,服務(wù)器廠商原本不會(huì)輕易切換新硬件,但如果原有的采購方案受阻,對(duì)于新的硬件提供商來說,或許正是新的擴(kuò)張機(jī)會(huì)。就像華為被斷供之后,也確實(shí)成就了其他幾家頭部廠商的崛起。
寫在最后
與英偉達(dá)同時(shí)收到許可要求通知的還有AMD,這一要求在通知下發(fā)之時(shí)即刻生效。據(jù)了解,已經(jīng)在中國境內(nèi)的現(xiàn)貨不受許可約束,這或許可以給相關(guān)客戶留有一定的緩沖余地。
不過,以上探討的只是可能性和權(quán)宜之計(jì)。從更長的時(shí)間周期來看,中國市場的高端GPU應(yīng)用難免會(huì)受到影響,比如科學(xué)計(jì)算、醫(yī)療、互聯(lián)網(wǎng)、金融等領(lǐng)域的高性能計(jì)算需求。
黃仁勛有一句名言“The more you buy, the more you save”。
以DGX A100為例,它是首個(gè)可在單一節(jié)點(diǎn)上提供每秒5千萬億次浮點(diǎn)運(yùn)算的系統(tǒng)。如果數(shù)據(jù)中心進(jìn)行AI訓(xùn)練,使用上一代Tesla P100,需要25個(gè)服務(wù)器機(jī)架,600個(gè)CPU,硬件成本1100萬美元,消耗630kW的功耗;而使用DGX A100的話,只需5個(gè)并聯(lián)的系統(tǒng),1個(gè)機(jī)架,成本約100萬美元,消耗28kW的功耗。
從技術(shù)路徑來說,高端GPU的替代手段總是存在的。但是在實(shí)際落地中,最終要面臨三大挑戰(zhàn):整體的算力成本、功耗和應(yīng)用生態(tài),這可能是替代者在短期內(nèi)需要直面的現(xiàn)實(shí)問題。
全球正處于推進(jìn)數(shù)字化轉(zhuǎn)型、著力升級(jí)基礎(chǔ)設(shè)施的關(guān)鍵時(shí)期,美國這一要求是對(duì)全球自由貿(mào)易體系的進(jìn)一步傷害,畢竟科技制裁之下,沒有所謂贏家。如果這一許可要求堅(jiān)持執(zhí)行的話,短期內(nèi)對(duì)英偉達(dá)傷害性不大、但侮辱性極強(qiáng),再從下游應(yīng)用市場來看,短期也會(huì)受到沉重打擊。