加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 引入系統(tǒng)并行性, MRDIMM實(shí)現(xiàn)高效算力
    • 內(nèi)存領(lǐng)域三大當(dāng)紅技術(shù):MRDIMM、HBM、CXL
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

AI推理內(nèi)存革命:突破瓶頸,CPU性能飛躍

12/05 11:18
1774
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

一直以來(lái),CPU處理器被看作是保障計(jì)算機(jī)出色運(yùn)行的“大腦”。但不能忽略的是,系統(tǒng)內(nèi)存(DRAM)在提升整體性能方面也扮演著重要角色。隨著數(shù)據(jù)密集型工作負(fù)載的需求不斷增加,現(xiàn)代服務(wù)器面臨著將計(jì)算能力與內(nèi)存帶寬相匹配的巨大壓力。由于服務(wù)器處理器核心數(shù)量的增長(zhǎng)速度超過(guò)了內(nèi)存帶寬的提升,這其實(shí)意味著,每個(gè)核心實(shí)際可用的內(nèi)存帶寬相應(yīng)減少了。

處理器核心與內(nèi)存帶寬失衡會(huì)帶來(lái)什么后果?像AI推理、高性能計(jì)算和實(shí)時(shí)分析等行業(yè),通常需要運(yùn)行大量的工作負(fù)載,內(nèi)存帶寬如果跟不上處理器的提升速度,往往可能會(huì)導(dǎo)致計(jì)算瓶頸,影響工作負(fù)載執(zhí)行的效率和效果。

在這些挑戰(zhàn)下,MRDIMM(多路復(fù)用雙列直插式內(nèi)存模塊)技術(shù)受到推崇。今年9月,英特爾發(fā)布的至強(qiáng)6性能核的高端產(chǎn)品6900P系列,就率先應(yīng)用了8800MT/s的MRDIMM內(nèi)存,它能夠以即插即用的方式大幅提升性能。

引入系統(tǒng)并行性, MRDIMM實(shí)現(xiàn)高效算力

數(shù)據(jù)中心,最常用的內(nèi)存模塊(稱為RDIMM)就像現(xiàn)代處理器一樣,具有板載并行資源,只是兩者的使用方式不同。

事實(shí)上,MRDIMM從原型設(shè)計(jì)到如今正式發(fā)布已經(jīng)有很多年了。最早被定義為專門針對(duì)科學(xué)計(jì)算和AI場(chǎng)景,針對(duì)這些場(chǎng)景,MRDIMM可以帶來(lái)非常杰出的表現(xiàn),為數(shù)據(jù)中心“錦上添花”。

據(jù)英特爾一位技術(shù)專家介紹,之所以在至強(qiáng)6這一代支持MRDIMM,首先要結(jié)合收益,8800MT/s的規(guī)格可以與英特爾至強(qiáng)6性能核處理器的性能相匹配,可以說(shuō)MRDIMM的推出“正當(dāng)其時(shí)”。

同時(shí),要和現(xiàn)有DDR5實(shí)現(xiàn)兼容。英特爾在產(chǎn)品原型、定義和推出等各個(gè)階段都和業(yè)內(nèi)很多RDIMM廠商進(jìn)行了深度合作,目前三星、SK海力士美光都推出了相應(yīng)產(chǎn)品。從性能來(lái)講,與DDR5最高端的6400MT/s、主流的4400MT/s或4800MT/s相比,該方案在帶寬、延時(shí)等方面都有了顯著提升。

可以通俗理解該方案的形成:RDIMM通常有一個(gè)或兩個(gè)Rank(陣列),在兩個(gè)Rank的情況下,普通DRAM會(huì)分開訪問(wèn)。也就是說(shuō),一個(gè)讀寫的Cycle,只有一個(gè)陣列是活躍的,另外一個(gè)陣列在閑置。而MRDIMM會(huì)讓兩個(gè)陣列同時(shí)活躍起來(lái),利用片上的數(shù)據(jù)緩沖區(qū)實(shí)現(xiàn)128字節(jié)在兩個(gè)陣列的同步操作。

這個(gè)原理聽起來(lái)似乎并不復(fù)雜,不過(guò)英特爾技術(shù)專家解釋說(shuō),在工程實(shí)現(xiàn)時(shí)需要克服很多障礙。比如,片上的數(shù)據(jù)緩沖區(qū)就帶來(lái)了一定挑戰(zhàn),DRAM顆粒已經(jīng)非??炝耍诖嘶A(chǔ)之上還增加了數(shù)據(jù)緩沖區(qū)來(lái)處理128字節(jié)的數(shù)據(jù)傳輸,并且需要聯(lián)動(dòng)控制器,以及滿足RAS的需求、保證數(shù)據(jù)的完整性和一致性等。這并不只是簡(jiǎn)單地把數(shù)據(jù)分發(fā)到兩個(gè)Rank,而是需要在整個(gè)工程實(shí)現(xiàn)過(guò)程中進(jìn)行大量創(chuàng)新和協(xié)作。

英特爾數(shù)據(jù)中心與人工智能(DCAI)事業(yè)部?jī)?nèi)存開發(fā)資深首席工程師George Vergis,回想起靈感閃現(xiàn)的一瞬間時(shí)說(shuō)道,“當(dāng)時(shí)我們想到,既然并行資源沒(méi)被使用,那為什么不把它們集中起來(lái)呢?”于是,George Vergis便提出一個(gè)創(chuàng)新方案,即在DRAM模塊上放置一個(gè)小型接口芯片——多路復(fù)用器(Mux),從而讓數(shù)據(jù)可以在同一個(gè)時(shí)刻跨兩個(gè)內(nèi)存陣列進(jìn)行傳輸。

正是通過(guò)多路復(fù)用緩沖器整合了每個(gè)MRDIMM的電力負(fù)載,讓接口能夠運(yùn)行得比RDIMM更快。由于能夠同時(shí)并行訪問(wèn)兩個(gè)內(nèi)存陣列,帶寬也翻倍了。

由此就誕生了英特爾有史以來(lái)最快的系統(tǒng)內(nèi)存,峰值帶寬提高近40%,從每秒6400MT躍升至每秒8800MT,而過(guò)去則需經(jīng)過(guò)多次迭代才能實(shí)現(xiàn)。

目前,MRDIMM已經(jīng)納入JEDEC標(biāo)準(zhǔn),按照當(dāng)前的路線圖,預(yù)計(jì)未來(lái)將在8800MT/s的基礎(chǔ)上翻倍,以更好地滿足下一代處理器的卓越性能。隨著核數(shù)的增多、處理能力和主頻的提升,相應(yīng)地需要打破“內(nèi)存墻”、突破內(nèi)存的容量和性能問(wèn)題,也需要有不同的技術(shù)來(lái)滿足未來(lái)數(shù)據(jù)中心建設(shè)的需求。

內(nèi)存領(lǐng)域三大當(dāng)紅技術(shù):MRDIMM、HBM、CXL

當(dāng)前,內(nèi)存領(lǐng)域相關(guān)的前沿技術(shù)以MRDIMM和HBM為主要代表。英特爾技術(shù)專家表示,MRDIMM的目標(biāo)是性能提升,覆蓋了32GB、48GB、64GB、96GB、128GB和256GB這些常見(jiàn)的內(nèi)存容量。與市場(chǎng)上已經(jīng)實(shí)現(xiàn)512GB甚至更大容量的DDR5相比,MRDIMM更注重提高內(nèi)存帶寬和降低延遲,以滿足高性能需求。此外,MRDIMM的優(yōu)勢(shì)在于它兼容DDR5插槽,有更好的通用性。對(duì)于服務(wù)器整機(jī)設(shè)計(jì),包括散熱設(shè)計(jì)等,都可以統(tǒng)一進(jìn)行考慮,并采用統(tǒng)一的處理方式。

“至于HBM,通常是通過(guò)封裝工藝集成在CPU、GPU或ASIC芯片中,相對(duì)來(lái)說(shuō)通用性沒(méi)有那么強(qiáng),成本也會(huì)比較高,且容量基本上都會(huì)在96GB以內(nèi),這是目前主流的情況”,該技術(shù)專家表示,“不過(guò)考慮到AI需求,當(dāng)前一些廠商在HBM的投入非常大,顯示出該技術(shù)在特定領(lǐng)域的重要性,包括英特爾至強(qiáng)Max系列CPU、以及Gaudi都采用了HBM?!?/p>

將MRDIMM與HBM進(jìn)行對(duì)比,該技術(shù)專家認(rèn)為,前者單條可以達(dá)到256GB,意味著相對(duì)HBM,它容量更大、成本更低。在AI推理或是調(diào)優(yōu)等需要更大內(nèi)存容量的場(chǎng)景下,比如RAG,采用MRDIMM既有高性能表現(xiàn)(容量更大),同時(shí)也可以處理更加通用的場(chǎng)景,針對(duì)AI或者科學(xué)計(jì)算的場(chǎng)景更適用,目前MRDIMM主要還是用于服務(wù)器端對(duì)內(nèi)存帶寬要求較高的場(chǎng)景。

除了MRDIMM和HBM之外,CXL作為內(nèi)存領(lǐng)域一種兼具靈活性和高性價(jià)比的解決方案,正逐漸受到市場(chǎng)的青睞。在遠(yuǎn)端,CXL的內(nèi)存池技術(shù)允許使用成本較低的技術(shù),如DDR4,來(lái)支撐業(yè)務(wù)系統(tǒng);在近端,則可以通過(guò)CXL memory expander實(shí)現(xiàn)本機(jī)擴(kuò)展,進(jìn)一步增強(qiáng)了系統(tǒng)的擴(kuò)展性和成本效益。

據(jù)介紹,實(shí)際客戶測(cè)試顯示,在經(jīng)過(guò)優(yōu)化的場(chǎng)景下,CXL技術(shù)能夠達(dá)到90%-95%的性能指標(biāo)。近期的OCP China(開放計(jì)算中國(guó)峰會(huì))上,英特爾和阿里的聯(lián)合發(fā)布就展示了阿里是如何有效應(yīng)用了CXL技術(shù)。該技術(shù)專家認(rèn)為,這表明CXL的生態(tài)系統(tǒng)正在逐步完善,英特爾和產(chǎn)業(yè)伙伴的核心目標(biāo)是在滿足性能服務(wù)水平協(xié)議(SLA)的基礎(chǔ)上,提供更具性價(jià)比的方案。

他強(qiáng)調(diào),相較于MRDIMM和HBM,CXL的最大優(yōu)勢(shì)在于提供高性價(jià)比的方案,連接相對(duì)廉價(jià)的內(nèi)存,而非追求極致的帶寬和性能。這使得CXL在多種應(yīng)用場(chǎng)景中,尤其是在需要大容量?jī)?nèi)存和成本效益比的AI推理或科學(xué)計(jì)算場(chǎng)景中,更具吸引力。隨著生態(tài)系統(tǒng)的不斷完善,CXL有望成為內(nèi)存技術(shù)領(lǐng)域的主流選擇之一。

談及數(shù)據(jù)中心面臨的內(nèi)存瓶頸,該技術(shù)專家表示目前可以從兩方面來(lái)解決:一是內(nèi)存帶寬,MRDIMM目前的路線圖非常明確,未來(lái)帶寬會(huì)再次翻倍,容量方面隨著介質(zhì)本身的演進(jìn)也會(huì)增加;二是內(nèi)存容量,這是一個(gè)與應(yīng)用場(chǎng)景相關(guān)的問(wèn)題。對(duì)于內(nèi)存容量擴(kuò)展的場(chǎng)景,在不考慮極致性能的情況下,CXL可能是更好的選擇。

總之,MRDIMM定位于并非針對(duì)計(jì)算密集型或存儲(chǔ)密集型的應(yīng)用,而是專為內(nèi)存帶寬敏感型的應(yīng)用而設(shè)計(jì)。對(duì)于那些對(duì)內(nèi)存帶寬不敏感,主要依賴計(jì)算得出結(jié)果的應(yīng)用,MRDIMM可能不會(huì)發(fā)揮關(guān)鍵作用。然而,在內(nèi)存帶寬敏感型的應(yīng)用場(chǎng)景中,如內(nèi)存數(shù)據(jù)庫(kù)、科學(xué)計(jì)算和AI等,MRDIMM將扮演至關(guān)重要的角色?!癕RDIMM的價(jià)值在于其對(duì)內(nèi)存帶寬的優(yōu)化,而非單純的計(jì)算或存儲(chǔ)能力”,該技術(shù)專家強(qiáng)調(diào)。

英特爾

英特爾

英特爾在云計(jì)算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。

英特爾在云計(jì)算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師。主要關(guān)注人工智能、智能消費(fèi)電子等領(lǐng)域。電子科技領(lǐng)域?qū)I(yè)媒體十余載,善于縱深洞悉行業(yè)趨勢(shì)。歡迎交流~