人工智能(AI)模型對(duì)計(jì)算、存儲(chǔ)和數(shù)據(jù)移動(dòng)有著永不滿足的需求,傳統(tǒng)架構(gòu)的能力正成為擴(kuò)展機(jī)器學(xué)習(xí)(ML)的主要瓶頸。當(dāng)前的困境在于,一些技術(shù)方法在電力和能源使用方面遇到了阻礙。
Yole從事光通信和半導(dǎo)體激光器的高級(jí)分析師Martin Vallo博士認(rèn)為:“目前,許多挑戰(zhàn)源于使用電氣I/O。像AI/ML這樣的應(yīng)用經(jīng)常需要將數(shù)據(jù)從一個(gè)芯片快速移動(dòng)到另一個(gè)芯片,或從一塊板快速移動(dòng)到另外一塊板。因此,計(jì)算芯片需要更多的通信,要么通過更多的焊盤,要么在單個(gè)焊盤中以非常高的速度通信。”
帶寬需求與日俱增
過去50年,每十年都會(huì)出現(xiàn)一次移動(dòng)技術(shù)的創(chuàng)新。移動(dòng)帶寬需求已從語音通話和短信發(fā)展到超高清(UHD)視頻和各種增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)(AR/VR)應(yīng)用。
盡管新冠疫情對(duì)電信基礎(chǔ)設(shè)施供應(yīng)鏈產(chǎn)生了很大影響,但全球消費(fèi)者和商業(yè)用戶對(duì)網(wǎng)絡(luò)和云服務(wù)產(chǎn)生的新需求有增無減。社交網(wǎng)絡(luò)、商務(wù)會(huì)議、超高清視頻流、電子商務(wù)和游戲應(yīng)用仍將繼續(xù)增長。
現(xiàn)在,每個(gè)家庭和人均連接互聯(lián)網(wǎng)設(shè)備的平均數(shù)量正在增加。隨著功能和智能不斷增強(qiáng)的新型數(shù)字設(shè)備的出現(xiàn),以及不斷擴(kuò)展的機(jī)器對(duì)機(jī)器(M2M)應(yīng)用,如智能電表、視頻監(jiān)控、醫(yī)療保健監(jiān)控、連網(wǎng)驅(qū)動(dòng)器和自動(dòng)化物流,極大地促進(jìn)了設(shè)備和連接的增長,并推動(dòng)著數(shù)據(jù)中心基礎(chǔ)設(shè)施的擴(kuò)張。
應(yīng)運(yùn)而生的CPO
一些領(lǐng)先的光子學(xué)公司正在探索封裝內(nèi)光I/O技術(shù),以實(shí)現(xiàn)計(jì)算芯片間的通信。憑借網(wǎng)絡(luò)應(yīng)用,尤其是AI和ML系統(tǒng),CPO(Co-Packaged Optics,共封裝光學(xué)器件)開始引領(lǐng)潮流。
CPO是將光學(xué)器件用于非常短的傳輸距離,例如機(jī)架內(nèi)應(yīng)用或系統(tǒng)內(nèi)。因此,高性能計(jì)算(HPC)及其新的分解架構(gòu)開始采用新的光學(xué)互連——封裝內(nèi)光I/O技術(shù),將其用于各種處理單元(xPU)、內(nèi)存和存儲(chǔ)來實(shí)現(xiàn)必要的帶寬。
Yole預(yù)計(jì),用于HPC的光學(xué)I/O將大大加快CPO的部署,到2033年將創(chuàng)造一個(gè)價(jià)值26億美元的機(jī)會(huì)之窗,期間復(fù)合年增長率為46%。
2022年,CPO市場(chǎng)的收入達(dá)到了約3800萬美元,對(duì)快速增長的訓(xùn)練數(shù)據(jù)集大小的預(yù)測(cè)表明,數(shù)據(jù)將成為擴(kuò)展ML模型的主要瓶頸,因此AI的進(jìn)展可能放緩。在ML硬件中使用光I/O可以克服這種負(fù)面結(jié)果。
2022-2033年數(shù)據(jù)通信光學(xué)收入預(yù)測(cè)
為什么HPC首當(dāng)其沖?
HPC中的CPO一直備受關(guān)注,此前,由于預(yù)算削減,CPO社區(qū)面臨艱難時(shí)期,因?yàn)榭刹灏纹骷芽蓪?shí)現(xiàn)CPO的成本節(jié)約和低功耗。而CPO的全面部署只有在可插拔設(shè)備壽終正寢時(shí)才會(huì)發(fā)生。至少,在接下來的兩代交換機(jī)系統(tǒng)中,CPO很難與可插拔模塊競(jìng)爭(zhēng)。
而由于需要提高數(shù)據(jù)中心的網(wǎng)絡(luò)功率效率,CPO最近受到了更多關(guān)注。分析表明,與直流電的總功耗相比,聯(lián)網(wǎng)節(jié)省的功耗可以忽略不計(jì)。博通、英特爾、Marvell及其他CPO公司已將專有解決方案推向市場(chǎng)。為了滿足市場(chǎng)需求并使最終用戶相信CPO的可行性,他們必須證明多供應(yīng)商商業(yè)模式以及可觀的成本和功耗節(jié)約。
隨著技術(shù)進(jìn)步,通信和計(jì)算技術(shù)已更緊密地集成在商業(yè)系統(tǒng)中,網(wǎng)絡(luò)硬件組件越來越常見。此外,AI模型規(guī)模正在以前所未有的速度增長,傳統(tǒng)架構(gòu)(銅基電互連)的芯片到芯片或板到板能力將成為擴(kuò)展ML的主要瓶頸。因此,HPC及新的分解架構(gòu)出現(xiàn)了極短距離的新型光學(xué)互連。
分解設(shè)計(jì)區(qū)分了服務(wù)器卡上的計(jì)算、內(nèi)存和存儲(chǔ)組件,并分別對(duì)其進(jìn)行池化。利用先進(jìn)的封裝內(nèi)光I/O技術(shù),將基于光學(xué)的互連用于各種xPU,特別是中央處理單元(CPU)、數(shù)據(jù)處理單元(DPU)、圖形處理單元(GPU)、現(xiàn)場(chǎng)可編程門陣列(FPGA)和ASIC和存儲(chǔ)器,以實(shí)現(xiàn)必要的傳輸速度和帶寬。
預(yù)測(cè)表明,2029年之前6.4T光學(xué)模塊將投入市場(chǎng),CPO和可插拔光學(xué)器件之間可能會(huì)發(fā)生激烈的競(jìng)爭(zhēng)。在此之前,CPO系統(tǒng)的多個(gè)技術(shù)障礙將得到解決。不過,收發(fā)器行業(yè)的創(chuàng)新正推動(dòng)可插拔光學(xué)市場(chǎng)。在CPO系統(tǒng)實(shí)現(xiàn)網(wǎng)絡(luò)應(yīng)用的批量交付之前,將會(huì)先在可插拔設(shè)備中采用共封裝方法,受益者是HPC和分類系統(tǒng)光學(xué)引擎。
2024年至2026年間,行業(yè)生態(tài)系統(tǒng),包括Ayar Labs、Intel、Ranovus、Lightmatter、AMD、GlobalFoundries以及其他圍繞ML系統(tǒng)的供應(yīng)商N(yùn)vidia和HPE將批量交付產(chǎn)品。
CPO能解決什么問題?
如今,光纖離芯片組越來越近,用光將數(shù)據(jù)引入集中處理是架構(gòu)設(shè)計(jì)師的主要目標(biāo)之一。這一趨勢(shì)始于十年前安裝在PCB上的光學(xué)組件專有設(shè)計(jì)。這些嵌入式光學(xué)互連(EOI)在板載光學(xué)聯(lián)盟(COBO)中得到了延續(xù),其規(guī)范允許在網(wǎng)絡(luò)設(shè)備制造中使用板載光學(xué)模塊。
CPO則是一種創(chuàng)新方法,將光學(xué)器件和開關(guān)專用集成電路(ASIC)緊密結(jié)合在一起,以實(shí)現(xiàn)功率和成本效益高的CPO。由于在50T開關(guān)芯片周圍部署16個(gè)3.2Tbps光學(xué)模塊是當(dāng)今的技術(shù)挑戰(zhàn),近封裝光學(xué)器件(NPO)通過使用位于主板上的高性能PCB基板(一種插入器)來解決這一問題,而CPO則是在多芯片模塊基板上圍繞芯片部署。NPO插入器更寬,使芯片和光學(xué)模塊之間的信號(hào)路由更容易,同時(shí)滿足信號(hào)完整性要求。相比之下,CPO能以更低信道損耗和更低功耗將模塊和主機(jī)ASIC拉得更近。
共封裝方法的橫截面
可插拔器件與CPO誰將笑到最后?
Yole預(yù)計(jì),800G和1.6T可插拔模塊仍將大受歡迎,因?yàn)槠淅昧?00G和200G單波長光學(xué)器件的優(yōu)勢(shì),因此可以在QSFP-DD和OSFP-XD尺寸中實(shí)現(xiàn)技術(shù)和成本效益。
在所需的電密度和光密度、熱管理和能源效率方面,可插拔尺寸支持6.4T和12.8容量的能力將受到限制。由于采用分立電氣架構(gòu),功耗和熱管理正成為未來可插拔光學(xué)器件的限制因素,而CPO技術(shù)平臺(tái)可以克服上述挑戰(zhàn)。
不過,數(shù)據(jù)中心運(yùn)營商更喜歡經(jīng)驗(yàn)證的低成本和靈活的解決方案。現(xiàn)在,光插拔模塊市場(chǎng)供應(yīng)鏈日臻完善,涵蓋分立或集成組件供應(yīng)商、發(fā)射器和接收器光學(xué)組件、多路復(fù)用器、數(shù)字信號(hào)處理器(DSP)和PCB的光學(xué)公司,以及組裝/測(cè)試集成商。這種多供應(yīng)商市場(chǎng)涉及許多不同的供應(yīng)商。此外,一個(gè)交換機(jī)盒中多個(gè)不同可插拔模塊的互操作性也有助于實(shí)現(xiàn)靈活性。
只有頭部光學(xué)供應(yīng)商能玩CPO?
CPO的主要優(yōu)勢(shì)嚴(yán)重依賴于硅光子學(xué),只有高度集成的光學(xué)器件和硅芯片,而且要有新的工藝能力和代工廠的加持,才能從可插拔產(chǎn)品轉(zhuǎn)向CPO。而這只有價(jià)值數(shù)十億美元的光學(xué)供應(yīng)商才能實(shí)現(xiàn),傳統(tǒng)中型企業(yè)根本玩不轉(zhuǎn)。
目前,盡管只有大型云運(yùn)營商部署了高端CPO解決方案,許多小型企業(yè)數(shù)據(jù)中心沒有采用最新的互連技術(shù),因此該技術(shù)不會(huì)很快鋪開。這意味著,即使CPO成為主流技術(shù),可插拔模塊仍將對(duì)CPO在技術(shù)或經(jīng)濟(jì)上不可行的幾個(gè)應(yīng)用(如長途應(yīng)用和邊緣數(shù)據(jù)中心)有很高的需求。專家預(yù)計(jì),可插拔技術(shù)在10年內(nèi)不會(huì)被淘汰。不過,可插拔和光學(xué)行業(yè)可能會(huì)整合,而CPO市場(chǎng)將形成多供應(yīng)商商業(yè)模式。
回顧2020年,光互連和交換設(shè)備行業(yè)就CPO展開了廣泛討論,并宣布了幾項(xiàng)戰(zhàn)略合作,出現(xiàn)了第一批概念驗(yàn)證。這是因?yàn)楣饣ミB論壇(OIF)、COBO和多源協(xié)議(MSA)小組等標(biāo)準(zhǔn)機(jī)構(gòu)已建立了一些內(nèi)部項(xiàng)目,四家超大型云運(yùn)營商中的兩家——Meta和微軟——也積極支持CPO滲透到云網(wǎng)絡(luò)。
2022年交付了數(shù)千臺(tái)CPO引擎進(jìn)行試點(diǎn)測(cè)試。今年,宏觀經(jīng)濟(jì)逆風(fēng)對(duì)預(yù)算密集型項(xiàng)目產(chǎn)生了負(fù)面影響,尤其是CPO等技術(shù)。最近,大多數(shù)CPO主要支持者已暫停了對(duì)CPO項(xiàng)目的支持,博通幾乎成了最后一家CPO供應(yīng)商。
CPO失去吸引力的原因包括,圍繞可插拔產(chǎn)品建立了完善的行業(yè)生態(tài)系統(tǒng);用于可插拔尺寸的新光學(xué)技術(shù),包括薄膜鈮酸鋰(TFLN)、鈦酸鋇(BTO)、碳和聚合物調(diào)制器,可實(shí)現(xiàn)所需的低功率,并在不改變現(xiàn)有網(wǎng)絡(luò)設(shè)計(jì)情況下引入市場(chǎng)。這說明,無論哪種技術(shù),只要在性能、功率、成本和可制造性方面存在優(yōu)勢(shì)都能蓬勃發(fā)展。
在AI/ML系統(tǒng)中的CPO應(yīng)用有所不同,未來數(shù)十億個(gè)光學(xué)互連、芯片和電路板的潛力促使大型代工廠為大規(guī)模生產(chǎn)做了準(zhǔn)備。由于大多數(shù)光子學(xué)制造IP由非代工廠持有,Tower Semiconductor/Intel、GlobalFoundries、ASE Group、臺(tái)積電和三星等正在準(zhǔn)備硅光子學(xué)工藝流程,以接受設(shè)計(jì)公司的任何光子集成電路(PIC)架構(gòu)。
另外,小芯片(Chiplet)互連通用規(guī)范允許構(gòu)建超過最大允許尺寸的大型SoC封裝,可在同一封裝內(nèi)混合不同供應(yīng)商的組件,并使用更小的片芯提高制造產(chǎn)量。每個(gè)小芯片都可以使用適合特定器件類型或計(jì)算性能/功耗要求的不同硅制造工藝。
應(yīng)對(duì)數(shù)據(jù)爆炸式增長挑戰(zhàn)
現(xiàn)在看,封裝內(nèi)光I/O技術(shù)與小芯片和硅光子學(xué)等創(chuàng)新封裝技術(shù)相結(jié)合,可提供高達(dá)1000倍的帶寬,而功率僅為電氣I/O替代方案的1/10。其帶寬擴(kuò)展路線圖始于Ayar Labs開發(fā)的每個(gè)方向承載2Tbps帶寬的能力,每條線帶寬為200 Gbps/mm。Yole認(rèn)為,到本世紀(jì)末,每條線帶寬將達(dá)1–10Tbps/mm。一些用戶對(duì)>20Tbps和>50Tbps線帶寬的可用性更為樂觀。
2020-2034年CPO技術(shù)上市時(shí)間
未來,加速AI/ML系統(tǒng)中的數(shù)據(jù)移動(dòng)是HPC系統(tǒng)采用光學(xué)互連的主要驅(qū)動(dòng)因素。在ML硬件中使用光I/O可解決數(shù)據(jù)爆炸式增長帶來的問題。在硅光子學(xué)進(jìn)步的推動(dòng)下,深度光子學(xué)集成已在特定數(shù)據(jù)中心應(yīng)用中得到證明。因此,光I/O小芯片架構(gòu)肯定會(huì)繼續(xù)演繹與數(shù)據(jù)通信密切相關(guān)的故事。