作者 | 章漣漪
美國加速打出“芯片牌”。
當?shù)貢r間10月7日,美國商務(wù)部又宣布了對芯片實施新的出口管制,其中明確提到對中國發(fā)展超級計算機的限制:將先進計算芯片添加到商業(yè)控制清單(CCL),該類項目對華出口需要許可審批,并將出口管理條例(EAR)的范圍,擴大到部分在外國生產(chǎn)的先進計算機的相關(guān)產(chǎn)品。
這一指令并不突然。
Δ 美國實施芯片新的出口管制
美國此前已經(jīng)要求英偉達暫停向大陸出貨A100、H100 GPU卡,要求AMD暫停出貨的MI200 GPU。并且,以A100為基準,后續(xù)峰值算力和芯片間I/O性能均等于或大于A100的其他芯片,以及包括這些芯片的任何系統(tǒng)都將受到出口管制。除非獲得美國商務(wù)部的出口許可證。
此后雖給予的一定的緩沖時間。但伴隨著此次出口管制的發(fā)布,進一步明確了美國對于中國芯片,乃至背后科技產(chǎn)業(yè)的限制在不斷加大。
中長期來看,國內(nèi)半導體自主可控的方向不會改變,上述限制有望進一步倒逼中國半導體產(chǎn)業(yè)加速自主化進程。
01、限令之下,英偉達如何應(yīng)對?
時間回溯至8月底。
8月31日,英偉達發(fā)布公告稱:8月26日,美國政府對英偉達未來出口到中國(包括香港)和俄羅斯的A100和即將推出的H100芯片實施了新的許可證要求,該許可立即生效。新的許可證要求將解決涉及的產(chǎn)品可能用于或轉(zhuǎn)移到中國和俄羅斯的“軍事最終用途”或“軍事最終用戶”的風險。
上述許可涉及到的芯片主要包括:英偉達A100和即將出貨的H100兩款芯片、基于A100/H100打造的DGX產(chǎn)品、以及未來實現(xiàn)峰值性能和芯片對芯片I/O性能均等于或大于大致相當于A100的閾值的任何英偉達芯片。目前來看,美國政府對中國以及俄羅斯出口限制的主要是針對數(shù)據(jù)中心的高端獨立GPU芯片及相關(guān)產(chǎn)品。
Δ 英偉達/AMD高端GPU芯片性能參數(shù)。資料來源:富途證券
8月24日,英偉達曾表示,預計FY2023Q3(對應(yīng)CY2022年8月-CY2022年10月)營業(yè)收入預計為 59 億美元,受此次出口管制影響,中國地區(qū)的潛在營收損失約4億美元。
不過,僅一天后,9月1日,英偉達又發(fā)布公告稱,公司已美國政府新的授權(quán)審批,具體內(nèi)容包括:
“美國政府已批準英偉達繼續(xù)開發(fā)H100芯片所需要的出口、在出口和國內(nèi)轉(zhuǎn)移。
允許英偉達在2023年3月1日前,為A100的美國客戶提供所需的出口支持。目前,公司A100的美國客戶包括戴爾、思科等服務(wù)器設(shè)備廠商,以及終端客戶亞馬遜、谷歌等。
美國政府授權(quán)A100和H100,在2023年9月1日之前通過英偉達在中國香港的工廠履行訂單和物流。”
而據(jù)TAIPEI TIMES《臺北時報》報道,美國政府放寬許可授權(quán)的主要原因是,A100的部分開發(fā)工作是依賴中國工程師和中國運營部門進行。若A100無法完成開發(fā),對英偉達的業(yè)績影響相對較大。
可以理解為,短期內(nèi),英偉達A100和H100可以繼續(xù)出口中國,但長期是否可以售賣給中國客戶仍需看能否獲得美國政府的持續(xù)許可。
Δ 英偉達單芯片推理性能(Int8 Tops)。數(shù)據(jù)來源:英偉達、中信證券
在此之下,據(jù)臺媒報道,英偉達對臺積電下超級急件(super hot runs)訂單,提前生產(chǎn)原訂2023年出貨的部分產(chǎn)品,總量約5000片,最快今年10月底至11月初開始交貨,相關(guān)急件交期將大幅縮短,從原本預估的5~6個月,壓縮為2~3個月。
與此同時,有業(yè)內(nèi)人士稱,一旦明年美國的緩沖期過后,若英偉達不能再出口H100與A100,后續(xù)估計將轉(zhuǎn)為出售較低階的產(chǎn)品。因此,在美國限制A100和H100 GPU產(chǎn)品銷往大陸的緩沖期之內(nèi),英偉達希望完成更多的交付。
行業(yè)人士表示,根據(jù)最新消息,英偉達如果真的確定對中國斷供A100,其會推出一款中國特供版,即把單片性能壓縮到1600T以內(nèi),去保證持續(xù)供貨。“當然這只是妥協(xié)的辦法,我們不是說沒得用,可能性能上會打折扣。”
事情都有兩面性。上述人士認為,特斯拉一直以來傳達的很重要的點在于,軟件算法空間是很大的,可能暫時性硬件受挫會讓軟件算法往前邁一大步。
“另外這也是一個機會,也許我們會面臨短暫的困難,但終究會解決的。”據(jù)行業(yè)人士稱,數(shù)據(jù)中心對于現(xiàn)階段人工智能算法來說是必要的,我們有持續(xù)提升數(shù)據(jù)中心能力的訴求,所以我覺得還是得指望中國本土企業(yè),有著基礎(chǔ)知識產(chǎn)權(quán)能力的企業(yè),快速幫助中國需求方補充算力能力。
02、短期來看,對自動駕駛沖擊較小
英偉達的A100和H100以及AMD的MI250,都是目前世界上商用領(lǐng)域里最為頂尖的GPU芯片產(chǎn)品。
GPU(圖形處理器)主要應(yīng)用于圖顯和計算兩大方面,與知名度更高的 CPU(中央處理器)相比,更適用于密集型數(shù)據(jù)處理。此次英偉達受限芯片主要用于AI、HPC、自動駕駛等領(lǐng)域,屬于GPGPU(General Purpose GPU,通用計算圖形處理器),而其他GPU不受影響。
其中,A100是英偉達于2020年5月14日發(fā)布、基于Ampere架構(gòu)的加速計算卡,采用臺積電7nm工藝,擁有540億個晶體管,GPU最大功率400W,搭載廠商包括華碩、Atos、思科、Dell、富士通、HPE、浪潮、聯(lián)想,以及阿里巴巴、百度、騰訊、京東等。下游主要應(yīng)用于人工智能、數(shù)據(jù)分析等領(lǐng)域。
英偉達H100于2022年3月22日GTC技術(shù)大會中發(fā)布,搭載Hopper架構(gòu),擁有18432個CUDA內(nèi)核,核心頻率1.8GHz,采用臺積電4nm工藝。H100的FP16(峰值半精度)、TF32(峰值單精度)以及FP64(峰值雙精度)算力為A100的3倍,分別為2000 TFLOPS、1000 TFLOPS和60 TFLOPS。
此外,H100還增加了對FP8的支持,算力達到4000 TFLOPS,為A100芯片的6倍,可用于大型 AI 學習以及云計算中心。
短期來看,一旦A100等芯片受限,對我國數(shù)據(jù)中心建設(shè)影響比較大。即,將影響國內(nèi)阿里云、騰訊云等云廠商高端數(shù)據(jù)中心的建設(shè)。
國內(nèi)云廠商可以使用性能更低的替代產(chǎn)品,并靠堆數(shù)量的方法獲得同等規(guī)模算力,但這將增加計算成本,同時一些高精度計算也會受限。
有行業(yè)人士舉例稱,AI芯片是一個集群,一個數(shù)據(jù)中心可能需要幾萬片AI芯片,高性能芯片如果需要5000片,那么性能更低的產(chǎn)品可能需要2萬片。這個做法盡管理論可行,卻會帶來更高的計算成本。
而自動駕駛領(lǐng)域短期沖擊較小。
此次供應(yīng)受限的A100和H100等芯片在自動駕駛中主要用于數(shù)據(jù)中心場景中的云端訓練,而用于終端的英偉達Xavier、Orin等車載芯片則未受到限制。
因此,盡管A100也應(yīng)用于自動駕駛訓練中,比如特斯拉最新的超級計算機使用超過7000枚 A100 GPU進行自動駕駛訓練;我國部分車企也基于英偉達A100打造了自動駕駛訓練中心,比如2021年底蔚來宣布采用英偉達A100打造超級計算機,用于自動駕駛訓練。
但由于AI訓練芯片不會隨著終端銷售規(guī)模的增加而快速消耗,短期來看存貨足夠則可以滿足幾年內(nèi)的擴容。比如小鵬汽車董事長認為公司目前存貨可以滿足未來幾年的需求。
今年8月2日,小鵬汽車聯(lián)合阿里云,宣布在內(nèi)蒙古烏蘭察布建成中國最大的自動駕駛智算中心“扶搖”,用于自動駕駛模型訓練。盡管小鵬沒有公布“扶搖”數(shù)據(jù)中心的AI芯片選型,不過極大可能是英偉達A100。
因此長期來看,若英偉達高端GPU芯片限制持續(xù)升級,而我國高端芯片持續(xù)缺乏,則自動駕駛的云端訓練效率將受到影響,從而影響我國自動駕駛產(chǎn)業(yè)發(fā)展。
03、代差明顯,國產(chǎn)替代迎落地機遇
重壓之下,尋求國產(chǎn)替代不斷被提上日程。但顯然這并不是一件容易的事。
作為GPU的發(fā)明者,英偉達在該領(lǐng)域的地位是毋庸置疑的。從技術(shù)領(lǐng)域來看,相較于全球其他主要競爭對手,英偉達在產(chǎn)品完整度、存量市場份額等層面實現(xiàn)領(lǐng)先,且領(lǐng)先優(yōu)勢大概率會維持很長時間;從軟件生態(tài)布局來看,英偉達的CUDA(NVIDIA推出的運算平臺)生態(tài)具有較高的壁壘,用戶遷移需要較高的成本。
雙“BUFF”加持之下,英偉達GPU在AI訓練、高性能計算領(lǐng)域長期占據(jù)主導地位。根據(jù)市場情報公司Liftr Insights數(shù)據(jù),2021年一季度,在全球TOP云廠商數(shù)據(jù)中心AI加速芯片市場,英偉達份額占比為78%。且近年來其基本穩(wěn)定在80%左右,市場領(lǐng)先地位穩(wěn)固。
Δ 全球數(shù)據(jù)中心芯片市場營收規(guī)模(百萬美元)。數(shù)據(jù)來源:Bloomberg、中信證券
盡管有差距,但可以看到的是,近年來國內(nèi)GPU廠商也在不斷涌現(xiàn)。從2014年至今,國內(nèi)多個GPU芯片相關(guān)企業(yè)成立,其創(chuàng)始人團隊多有在英偉達、AMD 等企業(yè)有多年的工作經(jīng)驗,并且取得了一定的成果。
從產(chǎn)品角度來看,國產(chǎn)高端AI芯片在某一些維度已經(jīng)接近或者超過英偉達。比如壁仞科技的壁礪100芯片采用7nm先進制程工藝,可提供的峰值計算能力為2048TOPS@INT8,超過了A100的624 TOPS@INT8。
不過,通用性上,他們與英偉達相比仍有一定差距。整體來看,國內(nèi)GPU廠商在半精度&單精度領(lǐng)域中的計算能力,約落后英偉達、AMD1~2代左右;在雙精度(64 位)計算領(lǐng)域能力近乎空白,而雙精度運算更多應(yīng)用于復雜科學計算。
Δ 中國與海外GPU廠商產(chǎn)品參數(shù)對比。數(shù)據(jù)來源:中信證券
原本,正如后摩智能創(chuàng)始人吳強在接受采訪時表示,要替代英偉達,起碼要比英偉達的產(chǎn)品性能好5~10倍,1~2倍的改良客戶可以就等下一代產(chǎn)品,沒必要忍受一個新的、沒那么順手好用的軟件。
但伴隨著美國對芯片管制的加強,國產(chǎn)GPU廠商迎來了機遇。中國企業(yè)需要做的是沉下心來,在技術(shù)、產(chǎn)品商業(yè)化落地等方面不斷努力。
一方面,加大核心技術(shù)人才招募。一個頂尖人才加入,對于企業(yè)加成是巨大的。以AMD為例,2012年左右,伴隨著硅谷傳奇芯片架構(gòu)設(shè)計師Jim Keller的回歸,研究了基于x86-64與ARM微體系結(jié)構(gòu)的Zen架構(gòu),大幅提升其在數(shù)據(jù)中心領(lǐng)域的競爭力。
另一方面,加速產(chǎn)品從設(shè)計到量產(chǎn)交付全流程跑通。禁令之下,會倒逼國內(nèi)一些客戶開始使用國產(chǎn)GPU產(chǎn)品,在一定程度上能夠幫助相關(guān)企業(yè)與客戶建立密切聯(lián)系,進而幫助相關(guān)企業(yè)進行快速的技術(shù)和產(chǎn)品迭代。
有觀點認為,車端,地平線是英偉達平替。而誰,會成為英偉達在“云端的平替”?
參考文獻:
富途證券《從英偉達財報視角,觀察全球半導體行業(yè)周期》
中信證券《美禁止英偉達和AMD對華出售高端GPU,或加速GPGPU國產(chǎn)化進程》
光大證券《美國限制高端 GPU 出口中國,催化國產(chǎn)芯片研發(fā)進程》