GPT爆火,算力“芯慌”,而數(shù)據(jù)中心HPC的功率效率也備受關(guān)注,據(jù)稱共封裝器件(CPO,Co-packaged optics)能將功耗降低30%,每比特成本降低40%。真有這樣的好事?條件成熟了嗎?我們往下看。
CPO市場預(yù)期如何?
CPO是將交換芯片和光引擎共同組裝在同一個(gè)插槽上,形成芯片和模組的共封裝。這樣就可以盡可能降低網(wǎng)絡(luò)設(shè)備的工作功耗及散熱功耗,在OIF(光互聯(lián)網(wǎng)絡(luò)論壇)的主導(dǎo)下,業(yè)界多家廠商才共同推出了近CPO器件(NPO)和CPO技術(shù)。
共封裝方法橫截面
根據(jù)Yole預(yù)測,伴隨未來人工智能(AI)的發(fā)展,數(shù)據(jù)通信光學(xué)器件一直在增長,2022-2028年其CAGR將為24%,2028-2033為80%,收入預(yù)計(jì)將從2022年的3800萬美元增長到2033年的26億美元。得益于AI/ML設(shè)備數(shù)據(jù)移動(dòng)的加速,2022-2033年CAGR為46%。其中CPO將從2022年的600萬美元增長到2033年的2.87億美元,CAGR為69%。
2022-2033年數(shù)據(jù)通信光學(xué)收入增長預(yù)測
2023年,GPT引發(fā)了驅(qū)動(dòng)力和應(yīng)用范式的轉(zhuǎn)變。高帶寬、每機(jī)架高功率預(yù)算、HPC新型光鏈路捉襟見肘。隨著從聯(lián)網(wǎng)(交換)到處理(AI/ML(機(jī)器學(xué)習(xí)))的范式轉(zhuǎn)變,預(yù)計(jì)2024年將推出首個(gè)基于光學(xué)I/O的封裝內(nèi)Al系統(tǒng),而CPO的批量交付預(yù)計(jì)將在2029年之后。
2023年驅(qū)動(dòng)力和應(yīng)用范式轉(zhuǎn)變
CPO何能何德受青睞?
CPO受到關(guān)注是由于其在數(shù)據(jù)中心高性能計(jì)算的功率效率。由于近來宏觀經(jīng)濟(jì)不利,網(wǎng)絡(luò)應(yīng)用CPO的大多數(shù)支持者已暫停了對CPO項(xiàng)目的支持。其主要原因包括:一是可插拔產(chǎn)品的工業(yè)生態(tài)系統(tǒng)需要完善;二是可插拔尺寸的集成電光調(diào)制器可以實(shí)現(xiàn)所需的低功耗,且可在不改變現(xiàn)有網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)的情況下引入市場。
Yole Intelligence光子學(xué)和傳感部門高級(jí)分析師Martin Vallo博士則表示:“在所需的電密度和光密度、熱管理和能源效率方面,可插拔尺寸將限制其支持6.4T和12.8T容量的能力,使用硅光子學(xué)技術(shù)平臺(tái)的共封裝能夠克服上述挑戰(zhàn)?!?/p>
隨著技術(shù)進(jìn)步,能夠在商業(yè)系統(tǒng)中更緊密地集成通信和計(jì)算技術(shù)的網(wǎng)絡(luò)硬件組件越來越常見。不過,CPO對AI/ML系統(tǒng)仍保持著吸引力。AI模型的規(guī)模正在以前所未有的速度增長,傳統(tǒng)架構(gòu)(銅基電互連)的芯片對芯片或板對板能力將成為擴(kuò)展ML的主要瓶頸。因此,HPC及其新的分散架構(gòu)出現(xiàn)了新的、非常短的光互連。分散設(shè)計(jì)將服務(wù)器卡上的計(jì)算、內(nèi)存和存儲(chǔ)組件分開,并分別對其進(jìn)行池化。通過先進(jìn)的封裝內(nèi)光學(xué)I/O技術(shù)將基于光學(xué)的互連用于xPU(CPU、DPU、GPU、TPU、FPGA和ASIC)、內(nèi)存和存儲(chǔ)器,以實(shí)現(xiàn)必要的傳輸速度和帶寬。
此外,未來數(shù)十億光學(xué)互連(芯片、電路板)的潛力正在推動(dòng)大型代工廠為大規(guī)模生產(chǎn)做準(zhǔn)備。由于大多數(shù)光子制造IP由非代工公司(AyarLabs、Ranovus、思科、Nvidia、Marvell、Lightmatter和許多其他公司)持有,Tower Semiconductor、GlobalFoundries、ASE Group、臺(tái)積電和三星等大型代工公司正在準(zhǔn)備硅光子工藝流程,以接受設(shè)計(jì)公司的任何PIC架構(gòu)。所有這些代工廠都在加入PCIe、CXL和UCIe等行業(yè)聯(lián)盟。小芯片(chiplet)互連的通用規(guī)范允許構(gòu)建超過最大掩模尺寸的大型片上系統(tǒng)(SoC)封裝。這有助于在同一封裝內(nèi)混合來自不同供應(yīng)商的組件,并通過使用較小的片芯來提高制造產(chǎn)量。每個(gè)小芯片可以使用適合特定器件類型或計(jì)算性能/功耗要求的不同硅制造工藝。
2023年優(yōu)選CPO參與者供應(yīng)鏈
對快速增長的訓(xùn)練數(shù)據(jù)集的預(yù)測表明,數(shù)據(jù)將成為擴(kuò)展ML模型的主要瓶頸,因此,AI的進(jìn)展可能會(huì)放緩。在AI/ML設(shè)備中加速數(shù)據(jù)移動(dòng)是下一代HPC系統(tǒng)采用光學(xué)互連的主要驅(qū)動(dòng)因素,在ML硬件中使用光學(xué)I/O有助于應(yīng)對數(shù)據(jù)的爆炸性增長。
怎樣重拾CPO?
事實(shí)上,在過去50年里,每十年都會(huì)有一次移動(dòng)技術(shù)創(chuàng)新。移動(dòng)帶寬需求已經(jīng)從語音通話和短信發(fā)展到超高清(UHD)視頻和各種增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)(AR/VR)應(yīng)用。盡管疫情對電信基礎(chǔ)設(shè)施供應(yīng)鏈產(chǎn)生了很大影響,但全球消費(fèi)者和商業(yè)用戶不斷對網(wǎng)絡(luò)和云服務(wù)產(chǎn)生新的需求。社交網(wǎng)絡(luò)、商務(wù)會(huì)議、UHD視頻流、電子商務(wù)和游戲應(yīng)用將繼續(xù)推動(dòng)增長。
每個(gè)家庭和人均連接到互聯(lián)網(wǎng)的設(shè)備數(shù)量正在增加。隨著功能和智能不斷增強(qiáng)的新型數(shù)字設(shè)備的出現(xiàn),每年的采用率都在上升。此外,不斷擴(kuò)展的機(jī)器對機(jī)器應(yīng)用,如智能電表、視頻監(jiān)控、醫(yī)療保健監(jiān)控、連接驅(qū)動(dòng)器和自動(dòng)化物流,極大地促進(jìn)了設(shè)備和連接的增長,并推動(dòng)了數(shù)據(jù)中心基礎(chǔ)設(shè)施的擴(kuò)張。
由于預(yù)算削減,CPO社區(qū)面臨困難時(shí)期,只有在可插拔設(shè)備精疲力竭時(shí)CPO的全面部署才會(huì)發(fā)生。至少在接下來兩代交換機(jī)系統(tǒng)中,CPO很難與可插拔模塊競爭,在很長一段時(shí)間內(nèi)可插拔模塊仍將是首選。由于在數(shù)據(jù)中心中的網(wǎng)絡(luò)功率效率,CPO最近受到了很多關(guān)注。思科、臉書/Meta、IBM、英特爾和微軟等行業(yè)重量級(jí)公司一直在努力推動(dòng)CPO;博通、GlobalFoundries、Marvell、Quanta Cloud Technology等公司也加入了進(jìn)來。
分析表明,與數(shù)據(jù)中心總功耗相比,聯(lián)網(wǎng)節(jié)省的功耗可以忽略不計(jì)。只有博通、英特爾、Marvell和其他一些CPO公司會(huì)將專有解決方案推向市場。
隨著6.4T光學(xué)模塊最晚在2029年到來,CPO和可插拔光學(xué)器件之間可能發(fā)生激烈的競爭,預(yù)計(jì)CPO系統(tǒng)中的多個(gè)技術(shù)障礙將在此時(shí)得到解決。不過,收發(fā)器行業(yè)正在不斷創(chuàng)新,以推動(dòng)可插拔光學(xué)器件市場。在CPO系統(tǒng)實(shí)現(xiàn)網(wǎng)絡(luò)應(yīng)用的批量交付之前,將在可插拔設(shè)備中使用CPO方法,且光學(xué)引擎將在高性能計(jì)算的未來系統(tǒng)中越來越受歡迎。行業(yè)生態(tài)系統(tǒng),包括Ayar Labs、Intel、Ranovus、Lightmatter、AMD、GlobalFoundries和其他圍繞機(jī)器學(xué)習(xí)(ML)系統(tǒng)供應(yīng)商N(yùn)vidia和HPE,已經(jīng)取得了相當(dāng)大的進(jìn)展,計(jì)劃在2024年至2026年間批量交付產(chǎn)品。
光子集成電路可以實(shí)現(xiàn)高功率和成本效益的光學(xué)互連CPO,可以預(yù)計(jì),800G和1.6T可插拔模塊將備受歡迎,因?yàn)樗鼈兙哂?00G和200G單波長光學(xué)器件的優(yōu)勢,因此可以在QSFP-DD和OSFP-XD尺寸中實(shí)現(xiàn)技術(shù)和成本效益。
光纖距離芯片組也越來越近,用光將數(shù)據(jù)引入到集中處理點(diǎn)是架構(gòu)設(shè)計(jì)師的主要目標(biāo)之一。這一趨勢始于十年前安裝在PCB上的光學(xué)組件專有設(shè)計(jì)。這些嵌入式光學(xué)互連(EOI)的想法在板載光學(xué)聯(lián)盟(COBO)中得到了延續(xù),其制定的規(guī)范允許在網(wǎng)絡(luò)設(shè)備制造中使用板載光學(xué)模塊。
CPO是一種創(chuàng)新方法,可以將光學(xué)器件和交換機(jī)ASIC緊密結(jié)合在一起。由于在50T交換芯片中使用16個(gè)3.2Tbps光學(xué)模塊是當(dāng)今技術(shù)的挑戰(zhàn),NPO通過使用高性能PCB基板(一種內(nèi)插器)解決了這一問題。NPO內(nèi)插器更寬,使芯片和光學(xué)模塊之間的信號(hào)路由更容易,同時(shí)仍能滿足信號(hào)完整性要求。相比之下,CPO能以更低的信道損耗和更低功耗使模塊和主機(jī)ASIC更接近。
運(yùn)營商喜歡什么樣的解決方案?
如今,光可插拔模塊市場供應(yīng)鏈已經(jīng)建立完善,包括分立或集成組件供應(yīng)商、生產(chǎn)發(fā)射器和接收器光學(xué)組件(TOSA和ROSA)、多路復(fù)用器、DSP和PCB的光學(xué)公司以及組裝/測試集成商。此外,一個(gè)交換機(jī)盒中多個(gè)不同可插拔模塊的互操作性有助于行業(yè)的靈活性。高度集成的光學(xué)器件和硅片非常需要新的工程能力和代工廠,這對于傳統(tǒng)的中型企業(yè)來說是不可接受的。只有價(jià)值數(shù)十億美元的光學(xué)供應(yīng)商才能負(fù)擔(dān)得起從可插拔產(chǎn)品轉(zhuǎn)向CPO的費(fèi)用。
需要指出的是,盡管主流部署了主要針對大型云運(yùn)營商的CPO解決方案,但仍有許多小型企業(yè)數(shù)據(jù)中心沒有采用最新的互連技術(shù)。這意味著,即使CPO成為主流技術(shù),可插拔模塊仍將對CPO在技術(shù)或經(jīng)濟(jì)上不可行的幾個(gè)應(yīng)用(如長途應(yīng)用和邊緣數(shù)據(jù)中心)有很高的需求。預(yù)計(jì)可插拔技術(shù)在未來10年內(nèi)不會(huì)逐步淘汰。不過,可插拔光學(xué)行業(yè)可能會(huì)整合,而CPO市場將形成多供應(yīng)商商業(yè)模式。
市場調(diào)研公司CIR表示,數(shù)據(jù)中心CPO的部署將在很大程度上受到交換演進(jìn)的驅(qū)動(dòng),到2025年,將達(dá)到102.4Tbps。CIR表示,與使用可插拔光學(xué)器件相比,CPO可以將功耗降低30%,每比特的成本降低40%。
在組件層面,與前板可插拔產(chǎn)品(FPP)相比,CPO具有潛在的經(jīng)濟(jì)效益。例如,正如Ranovus董事長兼CEO Hamid Arabzadeh所說:成本是一個(gè)關(guān)鍵因素,因?yàn)椴恍枰狿AM4 IC定時(shí)器,“不需要時(shí)鐘和數(shù)據(jù)恢復(fù)(CDR)芯片和其他FPP項(xiàng)目也可能帶來節(jié)約?!?/p>
串行器和解串器(SerDes)鏈路是CPO的熱門話題。Martin Vallo博士認(rèn)為,224Gbps數(shù)據(jù)速率的標(biāo)準(zhǔn)化SerDes鏈路是使CPO成為主流的必備條件之一,可以通過多種鏈路類型提供信號(hào),包括片對片(D2D)、芯片到芯片、芯片到模塊(C2M)、中距離芯片到芯片(MR)和長距離芯片到片(LR)。
FPP和CPO部署模型的比較
與此同時(shí),思科和OIF成員Jock Bovington強(qiáng)調(diào),共封裝的好處之一是降低整體功耗?!安捎霉卜庋b時(shí)——無論是在同一基板(CPO)上還是在高密度中間層(HDI)基板(NPO)上——通道的損耗都會(huì)大大減少,能夠使用明顯更低功耗的SerDes,如XSR(10dB)或XSR+(13dB)。OIF開發(fā)了兩種類型的電氣接口。”
誰是CPO的第一人選?
關(guān)于CPO首先大規(guī)模應(yīng)用的領(lǐng)域,CIR認(rèn)為是數(shù)據(jù)中心,首先是超大型數(shù)據(jù)中心和大型企業(yè)數(shù)據(jù)中心。創(chuàng)始人兼總裁Lawrence Gasman解釋道:“在一段時(shí)間內(nèi),超級(jí)規(guī)模將占據(jù)主導(dǎo)地位,但企業(yè)數(shù)據(jù)中心將逐漸獲得份額,因?yàn)樗鼈兲嗔?!此外,HPC和超級(jí)計(jì)算機(jī)多年來也一直在使用接近CPO的東西。”
Ranovus董事長兼CEO Hamid Arabzadeh也同樣談到了計(jì)算空間的潛力,該公司3月與AMD/Xilinx合作展示了用于AI/ML平臺(tái)的新一代CPO解決方案,以實(shí)現(xiàn)節(jié)能、高通量和高密度光學(xué)互連。他認(rèn)為,CPO的兩個(gè)主要應(yīng)用領(lǐng)域是低容量(每個(gè)CPO<3.2Tbps)以太網(wǎng)光學(xué)模塊,以及高容量(≥3.2Tbps/CPO)的以太網(wǎng)交換機(jī)和計(jì)算解決方案。
Martin Vallo博士同意CPO的高功率計(jì)算可能性。他認(rèn)為,在實(shí)現(xiàn)數(shù)據(jù)中心內(nèi)互連的實(shí)際商業(yè)地位之前,CPO會(huì)在高功率計(jì)算中更受歡迎,而不僅僅是取代FPP?!氨M管主流部署的高端CPO解決方案主要用于大型云運(yùn)營商的200Tbps及以上的交換機(jī),但仍有許多小型企業(yè)數(shù)據(jù)中心沒有采用最新的光互連技術(shù),因此速度要慢得多?!彼f。
然而,在如日中天之前,CPO還有一系列棘手的問題需要解決,一些與CPO需求側(cè)有關(guān),另一些與供應(yīng)側(cè)有關(guān),許多問題涉及CPO如何與幀中繼終端(FRT)和FPP競爭。
Lawrence Gasman認(rèn)為,實(shí)現(xiàn)批量生產(chǎn)是CPO面臨的一個(gè)挑戰(zhàn)。CPO設(shè)備“不是傳統(tǒng)意義上的完全可插拔”。由于CPO技術(shù)將嚴(yán)重依賴硅光子學(xué),Martin Vallo認(rèn)為:“為了滿足市場需求,并讓最終用戶相信CPO的可行性,多供應(yīng)商的商業(yè)模式和制造產(chǎn)量必須是可以接受的?!?/p>
Yole還指出,如今的光學(xué)模塊市場已經(jīng)建立了良好的垂直整合,包括分立或集成組件供應(yīng)商、光學(xué)公司以及發(fā)射機(jī)光學(xué)子組件(TOSA)、接收光學(xué)子組件、多路復(fù)用器、DSP和PCB產(chǎn)品以及組裝/測試集成的供應(yīng)商。
是否能夠拔掉插頭?
人們普遍認(rèn)為,關(guān)于插頭很快消亡的報(bào)道是錯(cuò)誤的。Hamid Arabzadeh認(rèn)為,CPO和可插拔設(shè)備將共存,因?yàn)楹笳摺盀橐蕴W(wǎng)交換機(jī)帶來了可配置性”。
Martin Vallo認(rèn)為,可插拔設(shè)備本身正在發(fā)展?!皩τ?00Terabit的交換容量來說,可插拔1.6T八進(jìn)制小型可插拔-超密度(OSFP-XD)似乎將成為首選。目前尚不清楚3.2T OSFP-XD是否是一種可插拔的外形,可能實(shí)現(xiàn)204.8T?!?/p>
那么,CPO高速公路的下一步會(huì)發(fā)生什么呢?Hamid Arabzadeh認(rèn)為:“NPO有CPO的缺點(diǎn),但沒有模塊的優(yōu)點(diǎn)?!盚utchins表示,一個(gè)更明顯的行業(yè)趨勢是支持更高數(shù)據(jù)速率的共封裝解決方案,例如200G串行電氣接口。
Martin Vallo則推測下一階段的標(biāo)準(zhǔn)可能會(huì)導(dǎo)致標(biāo)準(zhǔn)插座設(shè)計(jì),將支持不同光學(xué)規(guī)格和可靠性要求。“標(biāo)準(zhǔn)化才剛剛開始,這個(gè)過程可能需要長達(dá)五年時(shí)間?!彼嵝训?。
從現(xiàn)在到未來
2020年,開始出現(xiàn)了第一批CPO概念驗(yàn)證并創(chuàng)建了規(guī)范。四大超大型云運(yùn)營商中的兩家——Meta和微軟——積極支持CPO滲透到其云網(wǎng)絡(luò)中。
2022年,交付了數(shù)千臺(tái)CPO引擎進(jìn)行試點(diǎn)測試。今年,盡管遇到一些宏觀經(jīng)濟(jì)逆風(fēng),將對預(yù)算密集型項(xiàng)目產(chǎn)生負(fù)面影響,但在硅光子學(xué)進(jìn)步的推動(dòng)下,深度光子學(xué)集成已經(jīng)在某些數(shù)據(jù)中心應(yīng)用中證明了可行性。CPO架構(gòu)也肯定會(huì)在數(shù)據(jù)通信之外的領(lǐng)域繼續(xù)它的故事。