前言:
在一個對壁仞科技最為關(guān)鍵的節(jié)點期,與上海封控同一時間的3月31日,壁仞第一款通用GPU芯片BR100系列點亮成功。
而近日BR100的正式發(fā)布,標志著全球通用GPU算力紀錄第一次由一家中國企業(yè)創(chuàng)造,中國的通用GPU芯片正式邁入[每秒千萬億次]計算新時代。
作者 | 方文 圖片來源 | 網(wǎng) 絡(luò)
創(chuàng)造全球通用GPU算力紀錄
壁仞科技BR100這款芯片創(chuàng)出全球算力紀錄,峰值算力達到國際廠商在售旗艦產(chǎn)品3倍以上,創(chuàng)下國內(nèi)互連帶寬紀錄。
是國內(nèi)率先采用Chiplet技術(shù)、率先采用新一代主機接口PCIe 5.0、率先支持CXL互連協(xié)議的通用GPU芯片。
16位浮點算力達到1000T以上、8位定點算力達到2000T以上,單芯片峰值算力達到PFLOPS級別。
性能方面,1024 TOPS INT8、512 TFLOPS BF16、256 TFLOPS TF32+、128 TFLOPS FP32;
可實現(xiàn)2.3TB/s外部I/O帶寬,支持64路編碼、512路解碼等;
號稱在FP32(單精度浮點)、INT8(整數(shù),常用于人工智能推理)等維度,均超越了國際廠商最新旗艦。
同時也發(fā)布了BR100系列的另一款產(chǎn)品BR104,該款芯片同樣基于壁立仞架構(gòu),擁有1個計算芯粒,性能約為BR100的一半,同樣超越了國際廠商的在售旗艦產(chǎn)品。
最底層支撐來源于自主芯片架構(gòu)
BR100之所以能夠?qū)崿F(xiàn)國際領(lǐng)先的算力,最底層的支撐來源于自主原創(chuàng)的芯片架構(gòu)[壁立仞]。
壁立仞架構(gòu)以數(shù)據(jù)流為中心,對數(shù)據(jù)流進行深度的優(yōu)化,比較完整地解決了數(shù)據(jù)搬移的瓶頸和并行度不足的問題。
壁立仞架構(gòu)有6大特性:TF32+數(shù)據(jù)流精度、TDA數(shù)據(jù)流存取加速、C-Warp數(shù)據(jù)流并行、NME減少數(shù)據(jù)搬移、NUMA/UMA減少數(shù)據(jù)搬移、SVI數(shù)據(jù)流隔離。
采用了Chiplet的設(shè)計理念,讓芯片總面積可以突破光罩尺寸對單芯片面積的限制,集成更多的算力和通用性邏輯。
通過縮小單個計算芯粒的面積,還可以同時提升產(chǎn)能與良率,進而極大地降低硅片的成本,并支持更靈活的產(chǎn)品策略。
努力構(gòu)建AI芯片的生態(tài)體系
算力對于數(shù)字世界、物理世界的融合和共同發(fā)展,具有巨大的作用,建立國產(chǎn)的GPGPU和AI芯片的生態(tài)非常重要。
如果能建立一個相對統(tǒng)一的生態(tài),讓更多的用戶進行這個編程和應(yīng)用,對芯片的廠商將是一個重大的利好。
對于一家初創(chuàng)公司而言,建設(shè)生態(tài)的周期非常長,投入也十分巨大,所以壁仞科技也會兼容目前主流的GPU生態(tài),與客戶現(xiàn)有的基礎(chǔ)設(shè)施做到高度的兼容,方便客戶的遷移。
目前,壁仞科技與浪潮信息共同開發(fā)了搭載了BR100的OAM服務(wù)器[海玄]。
該服務(wù)器可以提供高達8PFLOPS(8000萬億次每秒)的浮點峰值算力,超過普通8卡加速計算設(shè)備的能力。
除了研發(fā)大算力芯片之外,也提供軟硬一體的解決方案,自主研發(fā)的BIRENSUPA軟件平臺構(gòu)建在BR100系列產(chǎn)品的底層硬件之上。
由驅(qū)動層、編程平臺、框架層、應(yīng)用解決方案構(gòu)成,支持各類應(yīng)用場景。
從芯片到板卡模組到服務(wù)器,以壁礪100和壁礪104為底座,壁仞科技形成了一條完整的數(shù)據(jù)中心加速計算產(chǎn)品線。
對標英偉達最新GPU的底氣與距離
壁仞的BR100對標的是英偉達采用4nm工藝技術(shù)打造的H100。
對比英偉達的 Hopper GPU,后者采用臺積電4nm工藝制造,集成多達800億晶體管。
英偉達今年發(fā)布的最新GPU H100,采用的是專為英偉達加速計算需求設(shè)計優(yōu)化的TSMC 4N 工藝。
集成800億個晶體管,顯著提升了AI、HPC、顯存帶寬、互連和通信的速度,并能夠?qū)崿F(xiàn)近5TB/s的外部互聯(lián)帶寬。
20個H100 GPU便可承托相當于全球互聯(lián)網(wǎng)的流量,使其能夠幫助客戶推出先進的推薦系統(tǒng)以及實時運行數(shù)據(jù)推理的大型語言模型。
英偉達的GPU之所以能制霸全球,強大的的CUDA生態(tài)系統(tǒng)絕對是重要關(guān)鍵。
可見,芯片的算力性能只是一方面。
對于通用GPU產(chǎn)品來說,最終的應(yīng)用情況以及在軟件生態(tài)方面是否對開發(fā)者、合作伙伴友好也是決定其最終發(fā)展前景的重要一環(huán)。
對于一家初創(chuàng)公司來說,想要超越英偉達最新的H100 GPU,挑戰(zhàn)十分巨大。
拋開其它因素,僅看一些關(guān)鍵參數(shù),就能看到兩者之間的差距,以及想要超越的難度。
結(jié)尾:
從硬件到軟件再到應(yīng)用,壁仞科技已經(jīng)正式交出了首款產(chǎn)品的答卷,接下來就要接受市場的檢驗了。
部分資料參考:芯基建:《壁仞科技三年造出首款通用GPU,采用7nm工藝,對打英偉達4nm性能》,問芯Voice:《壁仞推出全球最大算力芯片,號稱以7nm超越英偉達4nm最新GPU》
本公眾號所刊發(fā)稿件及圖片來源于網(wǎng)絡(luò),僅用于交流使用,如有侵權(quán)請聯(lián)系回復,我們收到信息后會在24小時內(nèi)處理。
END
推薦閱讀:
商務(wù)合作請加微信勾搭:
18948782064
請務(wù)必注明:
「姓名 + 公司 + 合作需求」