作者:豐寧
在科技飛速發(fā)展的時(shí)代,半導(dǎo)體行業(yè)始終是焦點(diǎn)所在。AI 芯片領(lǐng)域更是猶如戰(zhàn)場(chǎng),各大廠商你爭(zhēng)我?jiàn)Z。
近日,AMD 推出新款芯片 MI325X,并隨之更新了 AI 芯片路線圖,這一舉措在業(yè)內(nèi)引發(fā)了強(qiáng)烈反響。與此同時(shí),人們廣泛熱議,AMD是否能夠向英偉達(dá)的領(lǐng)導(dǎo)地位發(fā)起有力挑戰(zhàn)?AMD 又能從這場(chǎng)激烈的競(jìng)爭(zhēng)中攫取多少勝利的果實(shí)?除了AMD,英偉達(dá)需要面臨的挑戰(zhàn)還有哪些?
在此之前,一起了解一下AMD的新款芯片MI325X帶來(lái)哪些亮點(diǎn)?以及其最新的AI芯片路線圖又透露了何種信息。
?01、MI325X,能否與B200掰手腕?
AMD最新推出的Instinct MI325X AI加速器,在大獲成功的MI300X基礎(chǔ)上再進(jìn)一步,著重增強(qiáng)了HBM內(nèi)存部分。在AMD的表述中,主要將其與英偉達(dá)前代產(chǎn)品H200進(jìn)行對(duì)比,而在今年3月,英偉達(dá)發(fā)布了其新款A(yù)I芯片B200。
至于AMD這款新品與英偉達(dá)的H200相比有哪些亮點(diǎn),這款產(chǎn)品有沒(méi)有能力與英偉達(dá)的最新GPU B200掰掰手腕?為了對(duì)比更為詳盡,本文再次將這幾款產(chǎn)品進(jìn)行對(duì)比。
AMD最新推出的Instinct MI325X AI加速器采用了AMD CDNA 3 GPU架構(gòu),內(nèi)置1530億個(gè)晶體管,配備256GB下一代HBM3E高帶寬內(nèi)存,提供6TB/s的內(nèi)存帶寬。此外,MI325X在FP8和FP16精度下分別達(dá)到2.6 PF和1.3 PF的峰值理論性能。
作為對(duì)比,英偉達(dá)3月發(fā)布的基于Blackwell架構(gòu)的B200 GPU基于臺(tái)積電的N4P制程工藝,擁有高達(dá)2080億的晶體管數(shù)量和192GB的HBM3e內(nèi)存容量,提供了8TB/s的內(nèi)存帶寬,以及20PF的FP8峰值性能。英偉達(dá)B200 GPU的AI運(yùn)算性能在FP8及新的FP6上都可達(dá)20 PF,是前一代Hopper構(gòu)架的H100運(yùn)算性能8 PF的2.5倍。在新的FP4格式上更可達(dá)到40 PF,是前一代Hopper構(gòu)架GPU運(yùn)算性能8 PF的5倍。
從工藝制程上來(lái)看,MI325X未作披露,而B(niǎo)200采用上文所述的臺(tái)積電N4P制程工藝。從晶體管數(shù)量來(lái)看,英偉達(dá)B200此數(shù)值兩倍于AMD MI325X。從內(nèi)存角度來(lái)看,AMD MI325X有著更高的內(nèi)存容量,這可能使其在某些AI模型的推理性能上表現(xiàn)出色,但其帶寬低于英偉達(dá)B200的8 TB/s。從FP8峰值性能來(lái)看,英偉達(dá)B200以20 PF的FP8峰值性能脫穎而出。
雖然在浮點(diǎn)運(yùn)算能力上,B200 整體上要優(yōu)于 MI325,但 MI325 的性能也足以滿足大多數(shù)人工智能和高性能計(jì)算的需求。從量產(chǎn)時(shí)間來(lái)看,兩者的量產(chǎn)時(shí)間較為接近。AMD?MI325X預(yù)計(jì)在2024年第四季度正式投產(chǎn),2025年一季度開(kāi)始向客戶交付。
英偉達(dá)的B200芯片原計(jì)劃于今年晚些時(shí)候正式出貨,然而由于Blackwell產(chǎn)能問(wèn)題影響,其新款Blackwell B200芯片將延遲發(fā)布三個(gè)月或更長(zhǎng)時(shí)間,批量出貨或延遲至明年第一季度。總體而言,AMD MI325X與英偉達(dá)B200相比,仍存在顯著差距。不過(guò),與英偉達(dá)的前代產(chǎn)品H200 相比,MI325X的數(shù)據(jù)參數(shù)已有了大幅提升。
AMD數(shù)據(jù)顯示,MI325X與英偉達(dá)H200的集成平臺(tái)H200 HGX對(duì)比,MI325X平臺(tái)提供1.8倍的內(nèi)存量、1.3倍的內(nèi)存帶寬和1.3倍的算力水平。蘇姿豐還表示,在運(yùn)行Meta的Llama 3.1大模型時(shí),MI325X的推理性能比H200高出40%。
?02、未來(lái)AI芯片路線圖,再度更新
除了芯片的發(fā)布,AMD還公布了最新的AI芯片路線圖。
AMD的AI芯片布局
AMD Instinct MI350系列首款產(chǎn)品即Instinct MI355X,將引入新一代的CDNA 4架構(gòu),采用3nm工藝制造,搭配HBM3E,總?cè)萘窟M(jìn)一步提升到288GB,對(duì)應(yīng)帶寬提高到8TB/s,TDP也上升到1000W,計(jì)劃2025年下半年開(kāi)始發(fā)貨。按照AMD的說(shuō)法,Instinct MI355X提供了2.3PF的FP16和4.6PF的FP8計(jì)算性能,相比前代產(chǎn)品的提升幅度約為77%。此外,新產(chǎn)品還將支持新的數(shù)據(jù)類型,包括FP4和FP6。
另外,基于下一代AMD CDNA“Next”架構(gòu)的AMD Instinct MI400 系列預(yù)計(jì)將于 2026 年上市。
英偉達(dá)的AI芯片布局
沿著規(guī)劃的AI藍(lán)圖,英偉達(dá)加速前行,接下來(lái)將一年就更新一代產(chǎn)品,以往通常是兩年更新一代。今年6月,英偉達(dá)CEO黃仁勛帶來(lái)了最新的AI芯片路線圖。
眼下,Blackwell架構(gòu)的GPU產(chǎn)品正在生產(chǎn)中,將成為2024、2025年的重要營(yíng)收驅(qū)動(dòng)。接下來(lái),英偉達(dá)計(jì)劃發(fā)布一個(gè)增強(qiáng)版Blackwell Ultra GPU(8S HBM3e 12H),預(yù)計(jì)將于2025年推出。這款芯片將擁有 8 堆疊 HBM3e 內(nèi)存,每疊有 12 個(gè)die高。B100 中的疊層大概是 8 堆疊,因此這應(yīng)該代表 Blackwell Ultra 上的 HBM 內(nèi)存容量至少增加 50%,甚至可能更多,具體取決于所使用的 DRAM 容量。
HBM3E 內(nèi)存的時(shí)鐘速度也可能更高。下一代Rubin GPU(8S HBM4)和相應(yīng)的平臺(tái)將于2026 年上市,這款芯片在此前的英偉達(dá)路線圖中曾被稱為 X100,Rubin GPU 將使用 HBM4 內(nèi)存,并將有 8 個(gè)堆棧,大概每個(gè)堆棧都有 12 個(gè) DRAM。隨后于2027 年的 Rubin Ultra GPU 將有 12 個(gè) HBM4 內(nèi)存堆棧,并且可能還有更高的堆棧。為了有更直觀的對(duì)比,可以仔細(xì)查閱下圖:
那么,從技術(shù)路線圖的角度進(jìn)行觀察,AMD 與英偉達(dá)在發(fā)展進(jìn)程上似乎并沒(méi)有太大的差距。然而,在實(shí)際應(yīng)用場(chǎng)景當(dāng)中,這兩家企業(yè)之間的較量究竟呈現(xiàn)出怎樣一番景象呢?當(dāng)產(chǎn)品真正投入到各種應(yīng)用場(chǎng)景中時(shí),無(wú)論是在游戲體驗(yàn)、專業(yè)圖形處理,還是在人工智能等相關(guān)領(lǐng)域,AMD 和英偉達(dá)的產(chǎn)品會(huì)各自發(fā)揮出怎樣的性能?
?03、較量之下,英偉達(dá)依舊是最大贏家
過(guò)去數(shù)年間,英偉達(dá)在數(shù)據(jù)中心GPU市場(chǎng)中占據(jù)了主導(dǎo)地位,幾乎構(gòu)成了壟斷,而AMD則長(zhǎng)期穩(wěn)居次席。根據(jù)今年年初富國(guó)銀行的統(tǒng)計(jì),英偉達(dá)目前在數(shù)據(jù)中心AI市場(chǎng)擁有98%的市場(chǎng)份額,而AMD僅有1.2%的市場(chǎng)份額,英特爾則只有不到1%。
近日,根據(jù)摩根士丹利分析師發(fā)布的報(bào)告稱,英偉達(dá)Blackwell GPU未來(lái)12個(gè)月的產(chǎn)能已經(jīng)被預(yù)定一空。這意味著現(xiàn)在下訂單的新買家必須等到明年年底才能收到貨。摩根士丹利的分析師 Joseph Moore在給客戶的一份報(bào)告中指出,英偉達(dá)的傳統(tǒng)客戶(AWS、CoreWeave、Google、Meta、Microsoft 和Oracle等)已經(jīng)購(gòu)買了英偉達(dá)及其合作伙伴臺(tái)積電在未來(lái)幾個(gè)季度將能夠生產(chǎn)的所有 Blackwell GPU。
如此壓倒性的需求可能表明,盡管來(lái)自AMD、Intel、云服務(wù)提供商(自研AI芯片)和各種小型公司的競(jìng)爭(zhēng)加劇,但英偉達(dá)明年的AI芯片市場(chǎng)份額將會(huì)進(jìn)一步增長(zhǎng)。不過(guò),AMD并沒(méi)有因此沮喪。AMD在與英偉達(dá)的競(jìng)爭(zhēng)中,長(zhǎng)期將自身看作“市場(chǎng)的多一種選擇”。蘇姿豐此前表示,AI芯片市場(chǎng)足夠大,容得下多家企業(yè),“AMD不是必須要打敗英偉達(dá)才能成功”。
市場(chǎng)研究機(jī)構(gòu)Moor Insights&Strategy首席分析師帕特里克·莫爾黑德(Patrick Moorhead)表示,“AMD面臨的最大挑戰(zhàn)是獲得企業(yè)市場(chǎng)份額。AMD需要在銷售和營(yíng)銷方面投入更多資金,以加速其企業(yè)增長(zhǎng)?!睆漠?dāng)前AI市場(chǎng)競(jìng)爭(zhēng)格局來(lái)看,盡管 AMD 新款 GPU 較以往有所進(jìn)步,但業(yè)界分析師認(rèn)為,AMD 的技術(shù)至少落后英偉達(dá)一年。
不過(guò),根據(jù)美國(guó)投資銀行和金融服務(wù)公司KeyBanc分析師約翰?溫(John Vinh)的分析,他認(rèn)為今年AMD MI300X AI 加速卡的出貨量將突破 50 萬(wàn)張。該分析師認(rèn)為在數(shù)據(jù)中心領(lǐng)域,英偉達(dá)雖然一騎絕塵,AMD難以望其項(xiàng)背,但是 Instinct MI300X 憑借著卓越的實(shí)力,極高的性價(jià)比,成為行業(yè)客戶的重要備選方案,包括聯(lián)想在內(nèi)的部分公司都認(rèn)可 MI300X,這最終為 AMD 帶來(lái)了更多的業(yè)務(wù)。
在近日的芯片發(fā)布會(huì)上,AMD 還強(qiáng)調(diào)了與甲骨文、谷歌、微軟、Meta 等廠商的合作關(guān)系,蘇姿豐稱,微軟、OpenAI、Meta、Cohere 等多個(gè)廠商的生成式 AI 平臺(tái)已采用 MI300系列驅(qū)動(dòng)。至于英偉達(dá)究竟有何優(yōu)勢(shì),以及基于哪些條件使其在 AI 盛行的時(shí)代脫穎而出,主要有以下幾點(diǎn)。
?04、兩者對(duì)比,差距在哪里?
第一,英偉達(dá)的 AI 芯片本身性能就十分強(qiáng)悍。從架構(gòu)設(shè)計(jì)上來(lái)看,英偉達(dá)的 AI 芯片采用了高度優(yōu)化的架構(gòu);在浮點(diǎn)運(yùn)算能力方面,英偉達(dá)的 AI 芯片表現(xiàn)卓越。浮點(diǎn)運(yùn)算能力是衡量芯片處理能力的關(guān)鍵指標(biāo)之一;英偉達(dá)的芯片還具備出色的并行處理能力。AI 計(jì)算任務(wù)通常具有高度并行化的特點(diǎn),英偉達(dá)的 AI 芯片通過(guò)集成大量的計(jì)算單元,能夠同時(shí)處理多個(gè)數(shù)據(jù)塊。這種并行處理能力可以讓芯片在處理 AI 任務(wù)時(shí)充分利用數(shù)據(jù)的并行性,進(jìn)一步提高計(jì)算效率;在內(nèi)存帶寬和緩存設(shè)計(jì)上,英偉達(dá)也有獨(dú)特的優(yōu)勢(shì)。除了強(qiáng)悍的芯片性能,英偉達(dá)在以下幾個(gè)方面的努力也多有裨益。
第二,在研發(fā)投入方面,英偉達(dá)向來(lái)不惜 “血本”。據(jù)悉,英偉達(dá)在截至七月份的季度中錄得30.90億美元的研發(fā)費(fèi)用。將這一數(shù)字按年計(jì)算,這家GPU制造商一年的累計(jì)研發(fā)費(fèi)用約 123.6 億美元。相比之下,AMD 在其截至6月底的季度中錄得15.93億美元的研發(fā)費(fèi)用。將這一數(shù)字按年計(jì)算,該公司一年的累計(jì)研發(fā)費(fèi)用為 63.72 億美元。換句話說(shuō),根據(jù)目前的年化預(yù)測(cè),英偉達(dá)目前的研發(fā)投入是AMD的2倍。其實(shí)在發(fā)展初期,英偉達(dá)就非常重視研發(fā)生產(chǎn)力。2005年,AMD 的研發(fā)費(fèi)用為11億美元,是英偉達(dá)的3.2倍左右;而到了2022年,英偉達(dá)的研發(fā)費(fèi)用就達(dá)到73.4億美元,是AMD的1.47倍。截至整個(gè)2024財(cái)年(2023年自然年),英偉達(dá)研發(fā)費(fèi)用高達(dá)86.75億美元,是AMD同期研發(fā)費(fèi)用的1.48倍。過(guò)去10年(2014-2023自然年),英偉達(dá)累計(jì)投入費(fèi)用高達(dá)364億美元,高于蘋果公司、微軟公司等科技巨頭。隨著研發(fā)投入的不斷增長(zhǎng),英偉達(dá)通過(guò)技術(shù)進(jìn)步降低成本和產(chǎn)品價(jià)格,不斷推出新的產(chǎn)品吸引更多消費(fèi)者,優(yōu)勢(shì)自然也逐漸凸顯。
第三,在生態(tài)布局方面,英偉達(dá)下手也頗早。英偉達(dá)推出CUDA平臺(tái),使得利用GPU來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)等高算力模型的難度大大降低,將GPU的應(yīng)用從3D游戲和圖像處理拓展到科學(xué)計(jì)算、大數(shù)據(jù)處理、機(jī)器學(xué)習(xí)等領(lǐng)域,這一生態(tài)系統(tǒng)的建立讓很多開(kāi)發(fā)者依賴于CUDA,進(jìn)一步增加了英偉達(dá)的競(jìng)爭(zhēng)壁壘。如今AMD在搶占市場(chǎng)份額時(shí)遇到的最大難題,就在于英偉達(dá)利用自家CUDA平臺(tái),已在AI軟件開(kāi)發(fā)領(lǐng)域建立起一條護(hù)城河,把不少開(kāi)發(fā)人員牢牢綁定在了英偉達(dá)的生態(tài)系統(tǒng)里。作為應(yīng)對(duì),AMD一直在不斷優(yōu)化名為ROCm的軟件,目的就是讓AI開(kāi)發(fā)人員能更輕松地把更多AI模型“搬”到AMD的芯片上。目前,ROCm的最新版本6.2,相較于舊版在推理和訓(xùn)練上都有了超過(guò)2倍的提升。
第四,英偉達(dá)憑借早期與臺(tái)積電的緊密合作,得以在先進(jìn)制程的獲取上搶占先機(jī)。在芯片制造中,先進(jìn)制程工藝能夠顯著提升芯片的性能表現(xiàn)。英偉達(dá)與臺(tái)積電長(zhǎng)期穩(wěn)定的合作關(guān)系,使其在芯片生產(chǎn)的供應(yīng)鏈管理上更加成熟。這種成熟體現(xiàn)在生產(chǎn)計(jì)劃的精確安排、生產(chǎn)周期的有效控制以及產(chǎn)品良率的保障上。英偉達(dá)可以根據(jù)市場(chǎng)需求預(yù)測(cè),合理安排芯片的生產(chǎn)計(jì)劃,確保產(chǎn)品能夠及時(shí)供應(yīng)市場(chǎng),滿足客戶需求。同時(shí),在生產(chǎn)過(guò)程中,較高的產(chǎn)品良率意味著更低的生產(chǎn)成本和更高的生產(chǎn)效率。相比之下,AMD 在爭(zhēng)取臺(tái)積電先進(jìn)制程產(chǎn)能時(shí),往往受到英偉達(dá)訂單的擠壓,在生產(chǎn)計(jì)劃和良率控制方面可能面臨更多的不確定性,這在一定程度上影響了 AMD 產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力和供貨穩(wěn)定性,進(jìn)而導(dǎo)致其在 AI 芯片市場(chǎng)份額爭(zhēng)奪中處于劣勢(shì)。
?05、結(jié)語(yǔ)
綜上所述,英偉達(dá)在研發(fā)投入、生態(tài)布局、生產(chǎn)制造以及芯片性能等方面都展現(xiàn)出強(qiáng)大的實(shí)力,這使其在當(dāng)前的 AI 芯片市場(chǎng)中占據(jù)了絕對(duì)的主導(dǎo)地位。然而,AMD 并非毫無(wú)機(jī)會(huì)。
盡管目前 AMD 在這些關(guān)鍵領(lǐng)域相較于英偉達(dá)處于劣勢(shì),但它正在積極地做出改變和追趕。隨著 AI 市場(chǎng)的不斷擴(kuò)大和技術(shù)的持續(xù)迭代,未來(lái)充滿了變數(shù)。十年之后的AI芯片市場(chǎng)將呈現(xiàn)何種競(jìng)爭(zhēng)格局,還未曾可知。