加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶(hù)
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

探索AI大算力芯片的未來(lái)形態(tài):全數(shù)字存算一體

06/05 07:18
1533
閱讀需 12 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

近期,GPT-4o的發(fā)布再次引爆生成式AI話題——自ChatGPT出現(xiàn)至今,生成式AI堪稱(chēng)月月有爆點(diǎn),這也讓AI芯片熱度持續(xù)不減。其中有一類(lèi)與眾不同的芯片,這兩年正以其獨(dú)特的架構(gòu)吸引著產(chǎn)業(yè)界的關(guān)注。

存算一體,相比傳統(tǒng)馮諾依曼架構(gòu),不僅避開(kāi)“存儲(chǔ)墻”限制;而且借著AI發(fā)展的東風(fēng),顯得格外有潛力。億鑄科技作為市場(chǎng)上為數(shù)不多基于存算一體技術(shù)的AI大算力芯片企業(yè),正計(jì)劃從芯片到板卡、服務(wù)器,最終將算力橫向擴(kuò)展至大規(guī)模運(yùn)算集群,并最終借助存算一體技術(shù)在生成式AI時(shí)代站穩(wěn)腳跟。

對(duì)此,我們采訪了億鑄科技創(chuàng)始人、董事長(zhǎng)兼CEO 熊大鵬博士,解讀AI浪潮下大算力AI芯片的新形態(tài)——基于ReRAM的全數(shù)字存算一體芯片。

大算力存算一體芯片何時(shí)商用?

傳統(tǒng)馮諾依曼架構(gòu)芯片的“存儲(chǔ)墻”問(wèn)題日益嚴(yán)重。在需要海量數(shù)據(jù)搬運(yùn)的場(chǎng)景內(nèi),傳統(tǒng)芯片不僅面臨計(jì)算單元閑置導(dǎo)致系統(tǒng)效率降低的問(wèn)題;還面臨存儲(chǔ)、通信和數(shù)據(jù)搬運(yùn)的功耗開(kāi)銷(xiāo)都遠(yuǎn)高于計(jì)算的“能耗墻”問(wèn)題。除此之外,億鑄科技此前在中國(guó)臨港國(guó)際半導(dǎo)體大會(huì)上,還提到“編譯墻”問(wèn)題——即動(dòng)態(tài)數(shù)據(jù)流調(diào)度復(fù)雜,編譯器無(wú)法在靜態(tài)、可預(yù)測(cè)情況下自動(dòng)優(yōu)化可執(zhí)行程序,依賴(lài)手動(dòng)調(diào)優(yōu)等情況。以上三點(diǎn)都極大限制了資源日益緊缺、功耗大幅增長(zhǎng)的AI產(chǎn)業(yè)的發(fā)展。

對(duì)此,熊大鵬博士在主題演講中曾提到“阿姆達(dá)爾定律(Amdahl Law)”,談到存算一體相比傳統(tǒng)GPGPU在做加速時(shí)的優(yōu)勢(shì)在于數(shù)據(jù)搬運(yùn)量大幅下降,令訪存限制趨近于0,實(shí)現(xiàn)有效算力密度的增長(zhǎng);其數(shù)據(jù)訪問(wèn)模式可預(yù)測(cè),數(shù)據(jù)流和控制流簡(jiǎn)單,易于算子和可執(zhí)行層代碼自動(dòng)優(yōu)化。

基于以上優(yōu)勢(shì),在性能和效率方面,存算一體芯片能夠以成熟制造工藝比肩基于先進(jìn)制造工藝的馮諾依曼架構(gòu)傳統(tǒng)芯片,并實(shí)現(xiàn)更低成本?!按嫠阋惑w芯片的算力密度更高,擁有更好的能效比,”熊大鵬博士在接受采訪時(shí)表示,“用更少的晶體管達(dá)成相同的算力”“而且存算一體可以減少數(shù)據(jù)搬運(yùn)量和距離,這也是實(shí)現(xiàn)更高能效比的主要原因”。

即便存算一體芯片的優(yōu)勢(shì)已經(jīng)被越來(lái)越多的人所知,但這類(lèi)芯片到現(xiàn)在尚未全面占領(lǐng)大眾視野。熊大鵬博士認(rèn)為存算一體芯片是新技術(shù),“不管是架構(gòu)設(shè)計(jì)、軟件生態(tài),都還面臨著相當(dāng)程度的挑戰(zhàn)”。熊大鵬博士透露,億鑄在和昕原半導(dǎo)體合作,“目前市場(chǎng)公認(rèn)能夠?qū)崿F(xiàn)ReRAM這類(lèi)新型存儲(chǔ)量產(chǎn)的,只有昕原和臺(tái)積電,這兩家的制造工藝也都比較成熟?!?/p>

“但在AI大算力、大模型等應(yīng)用方面,存算一體技術(shù)落地,從架構(gòu)設(shè)計(jì)等各方面細(xì)節(jié)來(lái)看,還是存在不少挑戰(zhàn)?!薄按笏懔Υ嫠阋惑w芯片畢竟也是最近兩三年才出現(xiàn)的,新技術(shù)推向市場(chǎng)也需要時(shí)間磨合?!?熊大鵬博士強(qiáng)調(diào),“2025-2026年,大算力存算一體芯片應(yīng)該會(huì)逐步在商用市場(chǎng)推廣開(kāi)來(lái)?!?/p>

全數(shù)字化存算一體如何解決技術(shù)挑戰(zhàn)?

在此前的主題演講中,熊大鵬博士曾提到存算一體的“三把刀”,或者說(shuō)三大類(lèi)方案,分別是模擬、數(shù)?;旌吓c全數(shù)字化的方案。

在一般模擬的存算一體系統(tǒng)中,數(shù)據(jù)以模擬信號(hào)的方式存儲(chǔ),以存儲(chǔ)單元內(nèi)不同的電壓電平來(lái)表示,基于歐姆定律基爾霍夫定律(Kirchhoff’s Laws)執(zhí)行MAC等運(yùn)算。這種方案的最大問(wèn)題在于精度,模擬電路噪聲和各種變量是其中原因。“不管是制造工藝還是工作環(huán)境,都會(huì)讓憶阻器代表的完整數(shù)有誤差或漂移”。數(shù)模混合方法嘗試平衡效率和精度問(wèn)題,但依舊不能保證高精度。

所以?xún)|鑄的方案是基于ReRAM的全數(shù)字化存算一體。因?yàn)槭侨珨?shù)字化,數(shù)據(jù)以二進(jìn)制的方式放進(jìn)存儲(chǔ)單元內(nèi),“一個(gè)憶阻器(ReRAM)只表示一位,也就只有高低電平、高低電阻、高低電流的區(qū)別,這種情況下就能做到可靠”。

熊大鵬博士在談到存算一體芯片的算力大規(guī)模擴(kuò)展時(shí),提出當(dāng)前面臨的三大挑戰(zhàn)。其一是精度不可信的問(wèn)題;其二,基于模擬計(jì)算,數(shù)模模數(shù)轉(zhuǎn)換帶來(lái)了能耗、die size和性能的瓶頸;其三,AI大模型對(duì)容量有要求。全數(shù)字化路徑能夠很好地解決這些問(wèn)題,這也是億鑄科技做AI大算力推理芯片的依據(jù)。

而存儲(chǔ)介質(zhì)選擇ReRAM(Resistive Random Access Memory),“是性能、能效比、容量密度、工藝成熟度等方面的綜合考慮?!薄癛eRAM技術(shù)本身也在不斷提升?!绷硗釸eRAM是CMOS兼容的,能夠基于標(biāo)準(zhǔn)CMOS工藝制造,享受CMOS的很多先進(jìn)技術(shù),實(shí)現(xiàn)密度持續(xù)提升及未來(lái)更高的算力與能效比。

在解決技術(shù)問(wèn)題以后,去年億鑄科技點(diǎn)亮了基于ReRAM的高精度、低功耗存算一體AI大算力PoC芯片。“無(wú)論是能效比還是算力,都超出了我們的預(yù)期。”熊大鵬博士談到,“我們也運(yùn)行了一些典型的demo,比如以圖搜圖,比如(基于)LoRA跑比較小規(guī)模的Transformer網(wǎng)絡(luò),結(jié)果都遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手。至于量產(chǎn)芯片,目前處于設(shè)計(jì)沖刺階段?!?/p>

億鑄的芯片會(huì)是什么樣?

采訪中我們還是獲悉了有關(guān)億鑄這顆要問(wèn)世的AI大算力芯片的少量細(xì)節(jié):性能方面,億鑄的芯片 “有效性能、能效比都會(huì)有優(yōu)勢(shì)”,即便是相較競(jìng)爭(zhēng)對(duì)手最“新的解決方案”,“也不會(huì)輸”,雖然“不敢說(shuō)打開(kāi)壟斷局面,但至少也能撕開(kāi)一條縫,給用戶(hù)新的選擇”。

另外對(duì)于存算一體芯片的“通用性和可編程性”,鑒于“采用異構(gòu)結(jié)構(gòu),存算一體本身只做大規(guī)模矩陣計(jì)算,通用性和可編程性要依靠通用處理器,包括SIMT(single instruction multiple threads)?!毙艽簌i解釋道,“我們定義了一套完整的ISA?!?a class="article-link" target="_blank" href="/baike/1552575.html">CPU指令集主體為RISC-V,“SIMT、存算一體,和其他組成部分,將不同架構(gòu)、不同體系計(jì)算單元融合在一起,最終“將通用計(jì)算與存算一體有效融合”。

“另外以前的AI芯片主要基于CNN(卷積神經(jīng)網(wǎng)絡(luò)),造成了很大的通用性局限,對(duì)現(xiàn)在主流Transformer的支持不是特別友好?!薄皟|鑄的芯片兼顧C(jī)NN和Transformer?!迸c此同時(shí),“不少科學(xué)家工程師也在探討Transformer替代方案。我們也會(huì)關(guān)注未來(lái)AI模型、算法會(huì)往哪個(gè)方向演進(jìn)。”“不管是Transformer 2, Transformer 3,還是多模態(tài)、MoE,各種流派都在往前走?!?/p>

以上是芯片層面的信息。對(duì)于要實(shí)現(xiàn)算力擴(kuò)展的AI芯片而言,芯片、板卡系統(tǒng)與節(jié)點(diǎn)間的高速互聯(lián)是當(dāng)代系統(tǒng)層面AI性能發(fā)揮的瓶頸。所以熊大鵬博士特別提到,“芯片互聯(lián)、板間互聯(lián)、節(jié)點(diǎn)互聯(lián)是非常關(guān)鍵的技術(shù),我們也花了不少精力去做。”

個(gè)中細(xì)節(jié)熊大鵬博士并未透露,不過(guò)他提到不同層級(jí)的互聯(lián)會(huì)采用開(kāi)放標(biāo)準(zhǔn),“比如RDMA”。他還強(qiáng)調(diào)了DPU的重要性,對(duì)于大模型而言,“DPU扮演的角色越來(lái)越清晰,作用也越來(lái)越重要”,“我們會(huì)跟合作伙伴一起去開(kāi)發(fā)針對(duì)大模型的DPU”。 系統(tǒng)層面,“我們會(huì)和合作伙伴一起,做到服務(wù)器級(jí)別”,將來(lái)算力擴(kuò)展至整個(gè)大規(guī)模計(jì)算集群。

如何構(gòu)建存算一體軟件及應(yīng)用生態(tài)

對(duì)于加速器類(lèi)型的芯片而言,軟件開(kāi)發(fā)生態(tài)是另一大難點(diǎn)?!皬挠脩?hù)的角度來(lái)看,億鑄的芯片就相當(dāng)于一顆GPGPU,只不過(guò)是基于存算一體的GPGPU。”存算一體架構(gòu)對(duì)開(kāi)發(fā)者是不可見(jiàn)的?!昂芏嗥髽I(yè)、前人基于GPGPU做了各種各樣的開(kāi)源開(kāi)發(fā)工具和生態(tài)構(gòu)建,我們都用得上。”

“現(xiàn)在我們打算集中力量,在AI大模型應(yīng)用場(chǎng)景上發(fā)展。比如說(shuō)Llama 2-70b等等,容量大的、小的模型,我們都會(huì)去支持。”熊大鵬博士談到,“存算一體自身的特點(diǎn),決定了對(duì)算子的優(yōu)化相對(duì)簡(jiǎn)單,更容易支持典型的AI大模型。所以在支持典型AI大模型的基礎(chǔ)上,泛化到其他AI模型?!?/p>

從AI大模型角度切入,實(shí)則涵蓋了終端應(yīng)用領(lǐng)域的方方面面,包括數(shù)據(jù)中心、金融、游戲、安防、教育、工業(yè)、機(jī)器人、交通等等。

“建立軟件團(tuán)隊(duì)要一步步來(lái)。先是圍繞芯片建立團(tuán)隊(duì),這一步基本已經(jīng)達(dá)到了目標(biāo)。后續(xù)還要針對(duì)用戶(hù)使用、部署、各類(lèi)工具等等完善軟件團(tuán)隊(duì)?!薄吧鷳B(tài)構(gòu)建是需要打磨的,也關(guān)乎用戶(hù)接受度方方面面的問(wèn)題,這些都需要時(shí)間。”

億鑄科技在宣傳中提到,團(tuán)隊(duì)具備數(shù)字化存算一體全棧研發(fā)經(jīng)驗(yàn)及垂直整合能力——研發(fā)團(tuán)隊(duì)申請(qǐng)的專(zhuān)利已經(jīng)超過(guò)40項(xiàng),國(guó)際最早先進(jìn)工藝非馮體系架構(gòu)設(shè)計(jì)和芯片流片;具備主流架構(gòu)SoC量產(chǎn)交付能力——團(tuán)隊(duì)此前的SoC設(shè)計(jì)、量產(chǎn)及銷(xiāo)售的芯片已經(jīng)有20+顆;

更重要的是在軟件和編譯器方面,也有200+和350+案例的團(tuán)隊(duì)系統(tǒng)軟件研發(fā)交付經(jīng)驗(yàn);加上還具備“國(guó)內(nèi)外一線公司算法積累”,到最終應(yīng)用場(chǎng)景和生態(tài)可能都只是時(shí)間問(wèn)題。

結(jié)語(yǔ)

最后,熊大鵬博士表示,中國(guó)要發(fā)展自己的AI芯片與技術(shù),首先要“立足國(guó)內(nèi)的供應(yīng)鏈”,并強(qiáng)調(diào),“不立足國(guó)內(nèi)供應(yīng)鏈,即使做出來(lái)能夠達(dá)到國(guó)際先進(jìn)水平的芯片,最終也會(huì)受到各種限制”;“其次,一定要走不同的技術(shù)路線,才有機(jī)會(huì)實(shí)現(xiàn)換道超車(chē)?!倍鴥|鑄科技就在走這樣一條明確的道路:與國(guó)內(nèi)Foundry與IP供應(yīng)商合作;走與眾不同的存算一體路線,這也讓億鑄科技的大算力全數(shù)字存算一體芯片更加值得期待!

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
BTA24-600BWRG 1 STMicroelectronics 25A Snubberless™ Triacs

ECAD模型

下載ECAD模型
$3.29 查看
TTL-232R-3V3 1 FTDI Chip Cable Assembly, 24AWG, Communication Cable
$33.76 查看
P1553ABLRP 1 Littelfuse Inc Silicon Surge Protector, 180V V(BO) Max, 25A, MODIFIED TO-220, 3 PIN
暫無(wú)數(shù)據(jù) 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜