加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

深度丨壁仞科技:用7nm叫板4nm的硬件底氣

2022/08/18
1399
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

前言:

在一個對壁仞科技最為關(guān)鍵的節(jié)點期,與上海封控同一時間的3月31日,壁仞第一款通用GPU芯片BR100系列點亮成功。

而近日BR100的正式發(fā)布,標志著全球通用GPU算力紀錄第一次由一家中國企業(yè)創(chuàng)造,中國的通用GPU芯片正式邁入[每秒千萬億次]計算新時代。

作者 | 方文 圖片來源 |  網(wǎng) 絡(luò) 
 

創(chuàng)造全球通用GPU算力紀錄

壁仞科技BR100這款芯片創(chuàng)出全球算力紀錄,峰值算力達到國際廠商在售旗艦產(chǎn)品3倍以上,創(chuàng)下國內(nèi)互連帶寬紀錄。

是國內(nèi)率先采用Chiplet技術(shù)、率先采用新一代主機接口PCIe 5.0、率先支持CXL互連協(xié)議的通用GPU芯片。

16位浮點算力達到1000T以上、8位定點算力達到2000T以上,單芯片峰值算力達到PFLOPS級別。

性能方面,1024 TOPS INT8、512 TFLOPS BF16、256 TFLOPS TF32+、128 TFLOPS FP32;

可實現(xiàn)2.3TB/s外部I/O帶寬,支持64路編碼、512路解碼等;

號稱在FP32(單精度浮點)、INT8(整數(shù),常用于人工智能推理)等維度,均超越了國際廠商最新旗艦。

同時也發(fā)布了BR100系列的另一款產(chǎn)品BR104,該款芯片同樣基于壁立仞架構(gòu),擁有1個計算芯粒,性能約為BR100的一半,同樣超越了國際廠商的在售旗艦產(chǎn)品。

最底層支撐來源于自主芯片架構(gòu)

BR100之所以能夠?qū)崿F(xiàn)國際領(lǐng)先的算力,最底層的支撐來源于自主原創(chuàng)的芯片架構(gòu)[壁立仞]。

壁立仞架構(gòu)以數(shù)據(jù)流為中心,對數(shù)據(jù)流進行深度的優(yōu)化,比較完整地解決了數(shù)據(jù)搬移的瓶頸和并行度不足的問題。

壁立仞架構(gòu)有6大特性:TF32+數(shù)據(jù)流精度、TDA數(shù)據(jù)流存取加速、C-Warp數(shù)據(jù)流并行、NME減少數(shù)據(jù)搬移、NUMA/UMA減少數(shù)據(jù)搬移、SVI數(shù)據(jù)流隔離。

采用了Chiplet的設(shè)計理念,讓芯片總面積可以突破光罩尺寸對單芯片面積的限制,集成更多的算力和通用性邏輯。

通過縮小單個計算芯粒的面積,還可以同時提升產(chǎn)能與良率,進而極大地降低硅片的成本,并支持更靈活的產(chǎn)品策略。

努力構(gòu)建AI芯片的生態(tài)體系

算力對于數(shù)字世界、物理世界的融合和共同發(fā)展,具有巨大的作用,建立國產(chǎn)的GPGPU和AI芯片的生態(tài)非常重要。

如果能建立一個相對統(tǒng)一的生態(tài),讓更多的用戶進行這個編程和應(yīng)用,對芯片的廠商將是一個重大的利好。

對于一家初創(chuàng)公司而言,建設(shè)生態(tài)的周期非常長,投入也十分巨大,所以壁仞科技也會兼容目前主流的GPU生態(tài),與客戶現(xiàn)有的基礎(chǔ)設(shè)施做到高度的兼容,方便客戶的遷移。

目前,壁仞科技與浪潮信息共同開發(fā)了搭載了BR100的OAM服務(wù)器[海玄]。

該服務(wù)器可以提供高達8PFLOPS(8000萬億次每秒)的浮點峰值算力,超過普通8卡加速計算設(shè)備的能力。

除了研發(fā)大算力芯片之外,也提供軟硬一體的解決方案,自主研發(fā)的BIRENSUPA軟件平臺構(gòu)建在BR100系列產(chǎn)品的底層硬件之上。

由驅(qū)動層、編程平臺、框架層、應(yīng)用解決方案構(gòu)成,支持各類應(yīng)用場景。

從芯片到板卡模組到服務(wù)器,以壁礪100和壁礪104為底座,壁仞科技形成了一條完整的數(shù)據(jù)中心加速計算產(chǎn)品線。

對標英偉達最新GPU的底氣與距離

壁仞的BR100對標的是英偉達采用4nm工藝技術(shù)打造的H100。

對比英偉達的 Hopper GPU,后者采用臺積電4nm工藝制造,集成多達800億晶體管。

英偉達今年發(fā)布的最新GPU H100,采用的是專為英偉達加速計算需求設(shè)計優(yōu)化的TSMC 4N 工藝。

集成800億個晶體管,顯著提升了AI、HPC、顯存帶寬、互連和通信的速度,并能夠?qū)崿F(xiàn)近5TB/s的外部互聯(lián)帶寬。

20個H100 GPU便可承托相當于全球互聯(lián)網(wǎng)的流量,使其能夠幫助客戶推出先進的推薦系統(tǒng)以及實時運行數(shù)據(jù)推理的大型語言模型。

英偉達的GPU之所以能制霸全球,強大的的CUDA生態(tài)系統(tǒng)絕對是重要關(guān)鍵。

可見,芯片的算力性能只是一方面。

對于通用GPU產(chǎn)品來說,最終的應(yīng)用情況以及在軟件生態(tài)方面是否對開發(fā)者、合作伙伴友好也是決定其最終發(fā)展前景的重要一環(huán)。

對于一家初創(chuàng)公司來說,想要超越英偉達最新的H100 GPU,挑戰(zhàn)十分巨大。

拋開其它因素,僅看一些關(guān)鍵參數(shù),就能看到兩者之間的差距,以及想要超越的難度。

結(jié)尾:

從硬件到軟件再到應(yīng)用,壁仞科技已經(jīng)正式交出了首款產(chǎn)品的答卷,接下來就要接受市場的檢驗了。

部分資料參考:芯基建:《壁仞科技三年造出首款通用GPU,采用7nm工藝,對打英偉達4nm性能》,問芯Voice:《壁仞推出全球最大算力芯片,號稱以7nm超越英偉達4nm最新GPU》

本公眾號所刊發(fā)稿件及圖片來源于網(wǎng)絡(luò),僅用于交流使用,如有侵權(quán)請聯(lián)系回復,我們收到信息后會在24小時內(nèi)處理。

END

推薦閱讀:

商務(wù)合作請加微信勾搭:

18948782064

請務(wù)必注明:

「姓名 + 公司 + 合作需求」

壁仞科技

壁仞科技

壁仞科技創(chuàng)立于2019年,致力于研發(fā)原創(chuàng)性的通用計算體系,建立高效的軟硬件平臺,同時在智能計算領(lǐng)域提供一體化的解決方案。從發(fā)展路徑上,壁仞科技將首先聚焦云端通用智能計算,逐步在人工智能訓練和推理、圖形渲染、高性能通用計算等多個領(lǐng)域趕超現(xiàn)有解決方案,實現(xiàn)國產(chǎn)高端通用智能計算芯片的突破。

壁仞科技創(chuàng)立于2019年,致力于研發(fā)原創(chuàng)性的通用計算體系,建立高效的軟硬件平臺,同時在智能計算領(lǐng)域提供一體化的解決方案。從發(fā)展路徑上,壁仞科技將首先聚焦云端通用智能計算,逐步在人工智能訓練和推理、圖形渲染、高性能通用計算等多個領(lǐng)域趕超現(xiàn)有解決方案,實現(xiàn)國產(chǎn)高端通用智能計算芯片的突破。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

AI芯天下是智能芯片行業(yè)垂直自媒體。采用媒體+行業(yè)的模式,堅持從芯出發(fā),用心服務(wù)的理念,致力于豐富的網(wǎng)絡(luò)基礎(chǔ)資源建設(shè)。官網(wǎng):http://www.world2078.com/ 公眾號:World_2078

產(chǎn)業(yè)丨玻璃基板越發(fā)強勢,AI時代下或?qū)⒂兴鳛?>
				</a>
							</li>
						<li id= 深度丨谷歌發(fā)布自研量子芯片Willow,試圖解決量子計算的糾錯問題 查看更多