盡可能減少數(shù)據(jù)傳輸所消耗的電力,以致于讓每一瓦特電力都用于AI計算。面對“算力的盡頭是電力”,這是AI時代每一位智算中心運營者的夢想。
但要接近這一夢想變得越來越難。當前,AI應用和大模型的飛速發(fā)展正推動智算中心AI集群的規(guī)模和數(shù)據(jù)流量激增,帶動智算網(wǎng)絡的能耗和成本節(jié)節(jié)攀升。尤其是網(wǎng)絡中的光模塊器件,由于帶寬和數(shù)量都將成倍提升,面臨的整體功耗問題尤為突出。
在此背景下,為了給“實際計算騰出更多的電力”,一種新的光模塊技術——LPO(線性驅(qū)動可插拔光模塊)脫穎而出。LPO采用線性直驅(qū)技術,取消了傳統(tǒng)可拔插光模塊中的DSP或CDR芯片,從而可顯著降低光模塊的功耗、成本和時延。
盡管LPO優(yōu)勢明顯,但要實現(xiàn)規(guī)模部署,首先面臨著交換機與光模塊之間的互聯(lián)互通挑戰(zhàn)。
值得慶賀的是,在不久前舉行的IFOC 2024上,業(yè)界傳出了一則勁爆消息:新華三獨家受邀在現(xiàn)場展示了H3C S9827-128DH高密400G智算交換機與多家廠商的400G DSP&LPO模塊的互聯(lián)測試,結(jié)果顯示DSP和LPO的性能表現(xiàn)相近,驗證了基于112G SerDes的LPO方案的市場可行性。
此次互聯(lián)測試背后有著怎樣的技術邏輯和門檻?為什么偏偏新華三能做到?我們來展開講一講。
去掉DSP的LPO
眾所周知,光模塊在網(wǎng)絡連接中執(zhí)行光信號和電信號轉(zhuǎn)換的任務,傳統(tǒng)可拔插光模塊主要由DSP(數(shù)字信號處理器)、TIA(跨阻抗放大器)、Driver(驅(qū)動器)、LD(激光器)、PD(光電探測器)等部分組成。連接交換機后,信號發(fā)送的大致流程是:交換機ASIC SerDes將電信號通過PCB(印刷電路板)驅(qū)動到光模塊,光模塊中的DSP芯片接收電信號并執(zhí)行信號再生、信號均衡補償?shù)裙δ?,然后電信號?jīng)過Driver放大后由激光器轉(zhuǎn)換為光信號發(fā)射出去。
顯然,在傳統(tǒng)可拔插光模塊中,DSP是關鍵組件。由于信號通過PCB上的傳輸線時會發(fā)生損耗,且損耗會隨著數(shù)據(jù)速率和傳輸線長度增加而增加,而DSP芯片的引入可緩解鏈路損耗和對抗信號失真。
但DSP芯片也有缺點,大家都知道,凡是負責高速數(shù)字信號處理的芯片都很耗電且成本高昂。數(shù)據(jù)顯示,400G光模塊中典型的7nm DSP功耗占模塊功耗的50%。進入AI時代,隨著AI集群規(guī)模不斷擴張,光模塊在智算網(wǎng)絡中的整體功耗還會進一步加劇。一方面,光模塊速率從100G、200G向400G、800G甚至1.6T演進,致使單個光模塊的功耗持續(xù)攀升。另一方面,由于智算網(wǎng)絡架構(gòu)更加扁平且無收斂,AI集群規(guī)模擴張會引發(fā)對光模塊的數(shù)量需求急劇上漲。據(jù)計算,智算網(wǎng)絡所需的光模塊數(shù)量將相對GPU數(shù)量呈數(shù)倍增長。
正因如此,LPO技術從2023年開始受到業(yè)界廣泛關注。如上圖所示,LPO摒棄了傳統(tǒng)光模塊里的DSP,取而代之的是,將相關功能集成到交換機ASIC,并采用性能更優(yōu)、信號補償能力更強的TIA和Driver電芯片。這樣一來,光模塊中只剩下線性模擬組件和光引擎部分,從而可顯著降低光模塊功耗、延遲、成本和尺寸。
壓力給到了交換機
顯而易見,LPO方案將信號再生和數(shù)字信號補償功能轉(zhuǎn)移到交換機側(cè)后,主要依靠ASIC SerDes來整合端到端鏈路性能,自然對交換機的性能和兼容性提出了更高的要求。
首先,LPO光模塊去掉DSP后只剩下對抖動、噪聲、干擾、衰減等更加敏感的線性模擬組件,盡管Driver/TIA具有更強的均衡能力,但仍然不可避免地會將這些影響信號完整性的因素層層傳遞和疊加,進而造成整條鏈路的誤碼率增加。因此,這要求對交換機的電路部分進行精心設計,以實現(xiàn)更低的交換機端口損耗,確保到達光模塊的電信號質(zhì)量足夠好。
其次,交換機ASIC SerDes與光模塊之間通過PCB上的傳輸線路連接,受走線、打孔、焊接等PCB制造工藝的影響,交換機各個端口的插入損耗和回波損耗必然存在一定的差異,導致同一LPO光模塊在不同交換機端口的誤碼率性能表現(xiàn)不一致。這要求交換機能對高損耗端口進行補償,并能根據(jù)不同端口的損耗匹配最優(yōu)的均衡參數(shù),從而確保交換機全端口支持LPO光模塊。
再者,由于采用的激光器方案、支持的傳輸距離等不同,LPO光模塊具有多種類型,考慮不同廠家、不同類型的LPO光模塊的光電通道特性不同,交換機還需具備識別光模塊類型的能力,并能根據(jù)不同的信道特性、TIA/Driver參數(shù)進行均衡參數(shù)自動調(diào)優(yōu),以主動適配光模塊,使端到端鏈路性能達到最優(yōu)。
為什么是新華三?
本次互聯(lián)測試在H3C S9827-128DH與各廠商的多種類型的LPO光模塊之間完成了光眼圖測試和誤碼率測試,結(jié)果顯示:一、H3C S9827-128DH端口可以識別400G VR4+VCSEL、400G DR4+硅光、400G DR4+EML等不同類型、不同規(guī)格的QSFP112模塊,同時交換機不同端口保持較好的電信號一致性;二、各廠商的LPO模塊在H3C S9827上的誤碼率均低于門限要求,且經(jīng)過與主機適配調(diào)優(yōu)的LPO模塊誤碼率表現(xiàn)較好,與DSP方案光模塊誤碼率相近。
這些良好的測試結(jié)果無疑證明了新華三智算交換機已解決LPO方案帶給交換機的新挑戰(zhàn),彰顯出新華三智算交換機產(chǎn)品強大的性能、穩(wěn)定性和兼容性,為LPO光模塊規(guī)模應用再添助力。這背后,新華三是如何做到的?
首先,為確保交換機全端口性能一致良好,新華三 S9827-128DH采用51.2T交換芯片、以及領先的超低損PCB板材,并精密設計端口與PCB板材之間的布局走線,最大化減少電信號衰減和串聲干擾。同時,經(jīng)過長達半年的反復測試、修改、優(yōu)化交換機驅(qū)動軟件和高速模塊寄存器中的高速電信號參數(shù)(預加重、均衡等),選取最優(yōu)的參數(shù)模型,導入交換機的固化軟件系統(tǒng)中。在模塊上電后,將自動識別高速模塊并賦予其兼容范圍最好的電信號,實現(xiàn)較低的誤碼率,保障業(yè)務端口穩(wěn)定運行。
其次,為了廣泛兼容不同規(guī)格、不同技術方案的高速模塊,H3C S9827-128DH交換機軟件遵循CMIS和SFF-8636,采用邏輯讀取器,在讀取光模塊寄存器中的信息后,通過在驅(qū)動軟件導入的靈活、完善的識別策略,實現(xiàn)對各廠家的不同模塊規(guī)格(VR4、DR4等)、不同芯片方案(DSP、LPO)、不同激光器方案(EML、硅光)、多種應用模式(一對一、一分二)的QSFP112模塊的類型讀取,可靈活智能識別端口模塊模式,快速上電。
最后,謀全局,方能引領變革。以上所有的技術創(chuàng)新突破當然都離不開新華三的前瞻性布局。面對日新月異的AI技術和應用推動智算中心的異構(gòu)算力規(guī)模和復雜性節(jié)節(jié)攀升,給智算網(wǎng)絡的性能、能效等提出了越來越高的要求,新華三始終倡導以開放標準的聯(lián)接技術打通智算互聯(lián)互通的大動脈。光模塊作為智算網(wǎng)絡的關鍵器件,此次新華三智算交換機完成與各廠商、各種類型的LPO光模塊的良好對接,正是踐行開放標準路線的一次生動實踐。
事實上,在前瞻性布局引領下,新華三不只是推出了400G/800G LPO高密智算交換機,還推出了支持同城長距集群間的互聯(lián)互通的400G/800G ZR/ZR+ DCI硬件方案、具有極致的轉(zhuǎn)發(fā)性能與網(wǎng)卡解耦能力的算力集群核心交換機H3C S12500 AI等眾多產(chǎn)品與解決方案,充分表明其已在AI算力時代把握住了先發(fā)優(yōu)勢,為推動智算網(wǎng)絡變革和助力AI產(chǎn)業(yè)綠色高效發(fā)展做好了充分準備。