伴隨大語言模型和相關訓練系統(tǒng)迅猛增長、對非結構化數據處理的需求急劇上升,市場對算力的需求也是呈指數級增加。PCIe作為計算機和服務器中使用廣泛的高速數據傳輸技術發(fā)展迅猛,今年4月份PCI-SIG已經批準 Draft 0.5版基礎規(guī)范,目前0.7版本基礎規(guī)范正在審核中,預計2025年敲定最終發(fā)行版本。
PCIe 7.0 規(guī)范包括以下功能目標:
傳輸技術的挑戰(zhàn)
PCIe技術歷經Gen1-Gen6,已經發(fā)展到單 Lane 128G的傳輸速率,超高速的傳輸速率帶來了巨大挑戰(zhàn),協(xié)會不得不加入越來越多、越來越復雜的輔助機制,控制信號和數據完整性。那么,今天我們將主要探討未來PCIe 7.0?光傳輸技術的必要性及其挑戰(zhàn)。
1、計算資源限制
面向超大集群、超輕邊緣的兩極分化的數據中心新場景,未來計算將突破馮諾依曼架構瓶頸,計算、存儲和通信等模塊通過統(tǒng)一總線對等互聯(lián),而PCIe作為數據中心服務器間互聯(lián)的主力,承擔著高速數據傳輸的重任。數據中心中的計算密集型任務,對內存帶寬和利用率提出了更高要求。當前,大部分數據中心仍依賴本地內存,這不僅限制了數據處理的速度,還導致內存資源的利用效率低下。光傳輸方案則可以實現計算資源實現分散化,通過使處理單元能夠訪問更多分布在不同服務器單元或機架中的內存單元(跨服務器,跨機架訪問),進而釋放高度本地化且經常未使用的本地內存,使數據中心能夠更高效地配置資源。
2、電信號傳輸距離受限
大語言模型的快速迭代離不開海量GPU集群的強勁支持。目前而言,這個海量已經來到了千卡萬卡級別,集群之間的互連通常是基于GPU上原生的PCIe接口。就PCIe 技術而言,PCIe 1.0時,銅纜傳輸距離為10米,而發(fā)展到PCIe 5.0時,這一距離縮短至1-2米;當速率進一步提高到64 GT/s和128 GT/s,也即PCIe 6.0和未來的PCIe 7.0,銅纜傳輸距離將進一步縮短至幾十厘米,幾乎無法通過PCIe標準的銅纜實現機架間數十米的傳輸要求。再加上PCIe技術需考慮到重定時器的使用,其技術復雜、昂貴又耗電。且隨著PCIe技術升級,傳輸距離縮短,所需要的retimer的數量也會越來越多,還會引入更多的功耗和時延。而光連接通過光纖傳輸信號,可以在極高帶寬下保持信號的完整性和穩(wěn)定性。不僅可以顯著提升數據傳輸速度,還能降低數據傳輸的延遲。
3、成本衡量
前面我們提到過,帶寬的提升將致使鏈路中retimer數量上升,在相同的傳輸距離下,如果采用光傳輸技術,所需的retimer和SCU(信號調節(jié)單元)會更少。此外,光組件的設計制造工藝較為成熟,成本也會變得更加可控,加上光纖所占空間明顯小于銅纜,也有機會提升數據中心的整體密度,實現系統(tǒng)成本的降低。
另一方面,單 Lane 128G的傳輸速率將直接對PCIe 布線層面發(fā)起挑戰(zhàn)。在Gen5/Gen6布線標準中提供了使用銅電纜在系統(tǒng)內部和系統(tǒng)之間傳輸 PCIe 的選項。銅電纜比 PCB 走線具有更少的信號損失,能克服高頻通信的直接缺點,技術的升級將使得PCIe 7.0采用較粗的銅纜來克服高頻通信,相較于前一代技術勢必會帶來成本的增加。PCIe 7.0技術升級也會對相應的服務器PCB工藝帶來挑戰(zhàn),隨著信號速率的飆升,PCB產品層數增加,BGA間距縮小,板厚顯著增加,厚徑比提升明顯。這些變化也將導致材料成本和加工工藝難度的大幅增加。
如下圖所示,PCIe 7.0 Rev 0.5版本定義的理論損耗和分配,在7.0的奈奎斯特頻率點(32GHz),Pad到Pad的損耗要求為-36dB,與6.0和5.0相比,在相同頻點(16GHz)的損耗大大收緊。
光傳輸技術的可實現性
PCI-SIG于去年8月宣布組建PCIe光學工作組,并計劃采用多種技術來支持 PCIe,包括可插拔光收發(fā)器、板載光學器件、共封裝光學器件和光學 I/O。而我們也在今年看到了不同產業(yè)鏈的廠商在開展基于PCIe的光學產品研究,較為實際的例子是某服務器廠商基于PCIe Gen5的光互連方案將信號的傳輸距離從1.4米擴展到20米。該方案成功體現了光傳輸的優(yōu)越性。
然而,短期內實現光傳輸技術的過渡卻是較為困難,最初PCIe的接口并沒有考慮過光傳輸的可能性,這就意味著現有的PCIe技術的架構幾乎是基于電信號傳輸設計。首先我們需要考慮光傳輸與電氣層兼容問題,其次是與PCIe 協(xié)議層的適配性,再者是如何通過光纖傳輸PCIe 信號以及基于光纖的PCIe 外形標準如何制定 、FEC標準如何制定等等問題,小編相信伴隨協(xié)會的技術完善以及越來越多廠商的加入,我們將能看到更清晰的基于PCIe光傳輸技術應用的前景。
是德科技PCIe 7.0測試解決方案
在年初的展會上是德科技也與各廠商聯(lián)合展出了基于Gen7的測試方案預研。下面,我們就一起來看看Gen7基于光電技術測試方案詳情。
1、傳統(tǒng)電氣層解決方案
是德科技聯(lián)合 ALPHAWAVE SEMI于2024年1月30日-2月1日舉辦的DesignCon 2024展會上聯(lián)合展示了128G Gen7 收發(fā)端解決方案。
DesignCon?2024-Enable?PCIe 7.0 Technology
該解決方案由PCI-SIG協(xié)會主席Rick Eads演示,方案主要由 UXR系列實時示波器及高性能誤碼儀M8050A組成。
2、光傳輸技術解決方案初探究
是德科技于2024年3月24-28日舉辦的OFC2024展會上展示了低功耗 PCIe 7.0 光互連技術,支持新興的大型語言模型對更高效信號傳輸的需求。
OFC2024-PCIe?7.0?Over?Optics Demonstration
該解決方案包括M8050A 高性能誤碼儀(120G baud)、DCA-M N1092A(光通道)、N7736C光開關和800G DR8 LPO產品。