前天有個(gè)新聞上了頭條,講AMD最近拿到幾個(gè)大單,包括Oracle、IBM。Oracle計(jì)劃在云服務(wù)中采用AMD Instinct MI300X AI芯片,以及HPC用GPU;IBM預(yù)計(jì)將采用AMD的Xilinx FPGA解決方案,用于人工智能工作負(fù)載。
英偉達(dá)GPU供不應(yīng)求,導(dǎo)致了大量需求溢出,以至于Oracle成為了首批部署MI300X的公司之一。這就像是我們?nèi)コ燥?,想去的網(wǎng)紅餐廳排隊(duì)人山人海,但吃飯總得要吃,不行就另找一家好吃的。
MI300X尚處于“襁褓之中”,將于第四季度推出,目前還在提供樣品階段。AMD的軟件生態(tài)也沒有英偉達(dá)那么完善。訓(xùn)練和運(yùn)行AI大模型不僅僅取決于GPU性能,系統(tǒng)設(shè)計(jì)也尤為重要。
IBM卻不太一樣,IBM的AI推理平臺(tái)使用了NeuReality的NR1芯片,而AMD(Xilinx)的FPGA加速產(chǎn)品在其中發(fā)揮了關(guān)鍵作用。
NeuReality 是一家于 2019 年在以色列成立的初創(chuàng)公司,2021年2月,NeuReality推出了 NR1-P,這是一個(gè)以AI為中心的推理平臺(tái)。2021年11月,NeuReality 宣布與IBM建立合作伙伴關(guān)系,其中包括許可IBM的低精度AI內(nèi)核來構(gòu)建 NR1。
NR1是NeuReality NAPU系列中基于FPGA的芯片,這是一種具有嵌入式AI推理加速器以及網(wǎng)絡(luò)和虛擬化功能的SoC。據(jù)NeuReality透露,與其他深度學(xué)習(xí)芯片供應(yīng)商的GPU和ASIC方案相比,NR1的每美元性能將提高15倍。
按照我的理解,NeuReality可以算是Xilinx FPGA在AI領(lǐng)域的方案商,在其基礎(chǔ)上提供基于FPGA的AI推理加速平臺(tái)。
在芯片或者人工智能領(lǐng)域,新聞傳播討論最多的是臺(tái)積電,英特爾,英偉達(dá),AMD等著名公司,大家好像已經(jīng)聽不到IBM的聲音了,低調(diào)的藍(lán)色巨人似乎已經(jīng)退居幕后。
然而,IBM仍然是大佬中的大佬,在芯片和人工智能領(lǐng)域無法忽視的存在。10月25日IBM發(fā)布了第三季度財(cái)報(bào),季度收入達(dá)到147.5億美元,營業(yè)利潤率從11.4%擴(kuò)大至14.8%。
在IBM的歷史上,在芯片和人工智能非常輝煌。
1960年,IBM開發(fā)出倒裝芯片封裝技術(shù),提高組件可靠性。
1966年,IBM提出了單晶體管DRAM的想法。
1974年,IBM研究院設(shè)計(jì)了采用精簡指令集計(jì)算機(jī) (RISC) 架構(gòu)計(jì)算機(jī)原型,該架構(gòu)沿用至今。
在芯片領(lǐng)域的貢獻(xiàn),IBM還包括CMP、SiGe stress、ArF光刻、計(jì)算機(jī)化光刻技術(shù)、化學(xué)增量光刻及絕緣層上硅(SOI)技術(shù)、Power處理器、AI芯片、量子芯片等。
2020年,IBM研發(fā)出一種基于相變存儲(chǔ)器(PCM)的非·馮諾依曼架構(gòu)芯片技術(shù),能像人腦一樣在存儲(chǔ)中執(zhí)行計(jì)算任務(wù),以超低功耗實(shí)現(xiàn)復(fù)雜且準(zhǔn)確的深度神經(jīng)網(wǎng)絡(luò)推理。
2022年10月,IBM發(fā)布首款人工智能計(jì)算單元(Artificial Intelligent Unit,AIU)片上系統(tǒng),AIU專為加速深度學(xué)習(xí)模型使用的矩陣和向量計(jì)算而設(shè)計(jì)和優(yōu)化,不僅可以解決計(jì)算復(fù)雜的問題,并以遠(yuǎn)遠(yuǎn)超過CPU能力的速度執(zhí)行數(shù)據(jù)分析。
在量子計(jì)算領(lǐng)域,2020年,IBM發(fā)布了65量子位的Quantum Hummingbird。2022年11月10日,IBM發(fā)布433個(gè)量子比特的Osprey芯片。2023年,IBM將發(fā)布1123比特的IBM Quantum Condor。IBM也計(jì)劃在2025年推出一個(gè)超過4000個(gè)量子比特的系統(tǒng)。
在芯片制程研發(fā)方面,IBM 每次都能搶在傳統(tǒng)芯片制造商之前,設(shè)計(jì)出新制程的原型芯片來。比如說10nm芯片是由他們?cè)?014年研發(fā)出來的,到了2017年才量產(chǎn),5nm 芯片在 2015年提出,到2018年量產(chǎn)。
而在2021年,IBM率先推出了全球首個(gè)2nm芯片,采用納米片堆疊的晶體管,也被稱為GAA晶體管。
IBM的基礎(chǔ)研究實(shí)力,是整個(gè)世界IT科技樹的樹根之一,完全不受現(xiàn)有框框的束縛,方向激進(jìn)而前瞻。
IBM和Xilinx的合作關(guān)系,早在AMD進(jìn)來之前,兩家的策略聯(lián)盟已經(jīng)持續(xù)多年了。
早期Xilinx發(fā)布V5系列的FPGA時(shí),就已經(jīng)將IBM公司的PowerPC硬核集成在其芯片中。
2015年,當(dāng)微軟成功引入Altera FPGA對(duì)其Bing搜索引擎數(shù)據(jù)中心進(jìn)行加速改造后,IBM當(dāng)即啟動(dòng)與Xilinx的合作,共同研發(fā)FPGA加速平臺(tái)。
2017年IBM打造的新服務(wù)器架構(gòu)方案,將FPGA和服務(wù)器的CPU分離,直接將FPGA連接到數(shù)據(jù)中心的網(wǎng)絡(luò)之中。這種解決方案將會(huì)使FPGA作為一種單獨(dú)的計(jì)算單元,將多個(gè)FPGA單元形成的集群用于新興的超大規(guī)模數(shù)據(jù)中心中使用的服務(wù)器。
IBM的研究室里,科研人員將64個(gè)Xilinx公司的Kintex UltraScale XCKU060 型號(hào)的FPGA集成到一起形成一個(gè)服務(wù)器插片單元,能夠達(dá)到最大帶寬640Gb/s。將16個(gè)基本的插片單元集成在一個(gè)服務(wù)器的柜子上,便形成了一個(gè)有著1024個(gè)FPGA和16TB的2400Mb/s的DDR4內(nèi)存的服務(wù)器。這個(gè)平臺(tái)充分考慮了成本效率,使用水冷的方式實(shí)現(xiàn)了最優(yōu)的能量效率。
將FPGA從傳統(tǒng)的通過總線鏈接到CPU的方法中解放出來,使FPGA在數(shù)據(jù)中心的大規(guī)模部署成為可能。將傳統(tǒng)的機(jī)架式服務(wù)器和刀片式服務(wù)器變成了許多微服務(wù)器節(jié)點(diǎn)的集合體,通過共享例如電源供給、PCB背板、網(wǎng)絡(luò)鏈接等服務(wù)器資源來提高服務(wù)器的集成度,從而大大提高服務(wù)器的單位價(jià)格的性能參數(shù)(performance-per-dollar)。詳細(xì)內(nèi)容見IBM的論文,“An FPGA Platform for Hyperscalers,”發(fā)表在2017年8月的IEEE Hot Interconnects Conference上。
今年,IBM又宣布其協(xié)同加速處理器接口(CAPI)全面支持Xilinx FPGA和Power處理器,IBM將開發(fā)并驗(yàn)證裝置于IBM Power Systems服務(wù)器的賽靈思加速板,賽靈思正著手開發(fā)并將推出軟件定義SDAccel開發(fā)環(huán)境POWER專屬版本,以及專為OpenPOWER開發(fā)者社群提供的的函數(shù)庫。
對(duì)比GPU,F(xiàn)PGA的優(yōu)勢(shì)在于更低的功耗和時(shí)延。GPU無法很好地利用片上內(nèi)存,需要頻繁讀取片外的DRAM,因此功耗非常高。FPGA可以靈活運(yùn)用片上存儲(chǔ),因此功耗遠(yuǎn)低于GPU。另外,F(xiàn)PGA的架構(gòu),使其在AI推理中相比GPU具有非常強(qiáng)的時(shí)延優(yōu)勢(shì)。
FPGA加速板卡在2018年只有10億美元的市場(chǎng)規(guī)模,Semicon研究報(bào)告預(yù)計(jì)今年將超過50億美元。
數(shù)據(jù)中心的AI算力市場(chǎng)上,目前英偉達(dá)的GPU是如日中天,在AI芯片市場(chǎng)中占比最高,達(dá)91.9%。NPU、ASIC、FPGA市場(chǎng)占比分別為6.3%、1.5%、0.3%。
英偉達(dá)成功的主要原因,我認(rèn)為還是CuDA的生態(tài)比較好,程序員覆蓋面廣,開源資源和成熟方案應(yīng)有盡有,國內(nèi)大模型技術(shù)大多由海外開源搬運(yùn)而來,因此絕大多數(shù)都會(huì)采用現(xiàn)成的英偉達(dá)方案。
但是僅就AI算力前沿技術(shù)的高速發(fā)展來看,國外仍然會(huì)呈現(xiàn)百花齊放互相追趕的態(tài)勢(shì),無論是谷歌的TPU,還是IBM的Power架構(gòu),抑或是Intel/AMD的異構(gòu)加速芯片,都將長期角逐市場(chǎng)。這么大的一塊肉,沒有大佬會(huì)放棄。
AI算力的中場(chǎng)戰(zhàn)事才剛剛開始。