越來越多的大模型、AI應(yīng)用,以及龐大的服務(wù)器集群,給原有基礎(chǔ)設(shè)施和底層技術(shù)帶來了直接挑戰(zhàn)。高速、大帶寬的網(wǎng)絡(luò)連接,支持?jǐn)?shù)據(jù)快速傳輸?shù)慕鉀Q方案,成為AI下一步發(fā)展的關(guān)鍵支撐。
前不久的2024年光纖通信大會(huì)(OFC)上,英特爾展示了與其CPU封裝在一起的集成OCI(光學(xué)計(jì)算互連)芯粒,該項(xiàng)技術(shù)雖然尚處于技術(shù)原型(prototype)階段,但是對(duì)于在新興AI基礎(chǔ)設(shè)施中實(shí)現(xiàn)光學(xué)I/O(輸入/輸出)共封裝已經(jīng)實(shí)現(xiàn)了關(guān)鍵突破,是推動(dòng)高帶寬互連創(chuàng)新的關(guān)鍵一步。
該OCI芯粒可在最長100米的光纖上,單向支持64個(gè)32Gbps 通道,有助于實(shí)現(xiàn)可擴(kuò)展的CPU和GPU集群連接,和包括一致性內(nèi)存擴(kuò)展及資源解聚的新型計(jì)算架構(gòu)。雖然英特爾尚未公開這一OCI芯粒的確切尺寸,但最近發(fā)布的一張照片中,也可以直觀感受到OCI芯粒與標(biāo)準(zhǔn)2號(hào)鉛筆末端橡皮擦的尺寸對(duì)比。
據(jù)介紹,第一代OCI芯粒雙向數(shù)據(jù)傳輸速度達(dá)4Tbps,功耗約為每比特5皮焦耳(pJ)。英特爾正致力于對(duì)器件和封裝設(shè)計(jì)、制造工藝和帶寬擴(kuò)展的各種改進(jìn),以期在后續(xù)幾代產(chǎn)品中將能效降低到每比特3.5皮焦耳以下。
傳統(tǒng)電氣I/O逼近極限,硅光互連展現(xiàn)優(yōu)勢
英特爾研究院副總裁、英特爾中國研究院院長宋繼強(qiáng)在接受<與非網(wǎng)>等媒體采訪時(shí)表示,AI大模型對(duì)計(jì)算密度和內(nèi)存提出了很高要求,包括大容量和高帶寬,此外,存算比顯著提升,接近一比一,這進(jìn)一步加劇了帶寬挑戰(zhàn)。下一步,隨著AI應(yīng)用普及,云、邊緣計(jì)算及領(lǐng)域內(nèi)模型的并發(fā)調(diào)用需求將激增,更需要業(yè)界加快探索新技術(shù),提升算力和存儲(chǔ)密度,同時(shí)降低功耗和體積,以適應(yīng)有限空間內(nèi)的高密度計(jì)算和存儲(chǔ)需求。
一直以來,銅線實(shí)現(xiàn)芯片間的互連較為高效節(jié)能,但傳輸距離不超一米。長距離傳輸時(shí)它的短板明顯,因?yàn)樾枰岣唑?qū)動(dòng)電壓以保持信號(hào)完整性,從而增加了功耗開支,這使它難以滿足跨機(jī)架以及跨數(shù)據(jù)中心集群部署的長距離連接需求。
“硅光互連被認(rèn)為是應(yīng)對(duì)這一挑戰(zhàn)的關(guān)鍵。在相對(duì)較長的距離內(nèi),采用光纖進(jìn)行互連,能夠大幅提高傳輸帶寬速率;在I/O層面,可以通過包含片上激光器的PIC(硅光子集成電路)發(fā)射和接收光線,并實(shí)現(xiàn)光信號(hào)和數(shù)字信號(hào)的相互轉(zhuǎn)換,這些集成電路可在現(xiàn)有的晶圓生產(chǎn)線上實(shí)現(xiàn)大規(guī)模量產(chǎn),十分方便”,宋院長指出。
當(dāng)硅光技術(shù)以其節(jié)能特性越來越受到重視的時(shí)候,英特爾融合了兩大核心技術(shù)的獨(dú)特優(yōu)勢也顯現(xiàn)出來:首先,融合了半導(dǎo)體(特別是硅材料)發(fā)光和檢測光的能力,實(shí)現(xiàn)了與現(xiàn)有基于硅的生產(chǎn)流程的集成;其次,支持大規(guī)模集成電路設(shè)計(jì),包括硅與非硅晶體管的混合集成,進(jìn)一步擴(kuò)展了硅光技術(shù)的應(yīng)用范圍。
據(jù)介紹,這一完全集成的OCI芯粒的雙向數(shù)據(jù)傳輸速度達(dá)4 Tbps,并兼容第五代PCIe。在2024年光纖通信大會(huì)現(xiàn)場,實(shí)時(shí)光學(xué)鏈路演示還展示了通過單模光纖(SMF)跳線(patch cord)在兩個(gè)CPU平臺(tái)之間實(shí)現(xiàn)的發(fā)射器(Tx)和接收器(Rx)互連。CPU生成并測量了比特誤碼率(BER)。英特爾還展示了發(fā)射器的光譜(optical spectrum),包括單一光纖上200GHz間隔的八個(gè)波長,以及32Gbps發(fā)射器眼圖(eye diagram),表明了較強(qiáng)的信號(hào)質(zhì)量。
滿足AI需求,I/O“馬車”升級(jí)“摩托騎士”
在數(shù)據(jù)中心和早期AI集群中,普遍使用可插拔光收發(fā)器模塊來延長傳輸距離,但就AI工作負(fù)載的擴(kuò)展需求而言,其成本和功耗不可持續(xù)。
因?yàn)橐獢U(kuò)展AI或機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施,就需要大幅提高I/O帶寬密度和互連距離??刹灏问瞻l(fā)器模塊雖然可增加傳輸距離,但體積較大,通常需要高速串行器與解串器(SerDes)或數(shù)字信號(hào)處理技術(shù)(DSP)。因此功耗較高,帶寬密度較低,延遲較高。
目前,可插拔光收發(fā)器模塊的功耗大約為每比特15皮焦耳,而這種光電共封裝解決方案的功耗僅為每比特5皮焦耳(pJ)。英特爾的OCI芯粒單向支持64個(gè)32Gbps 通道,傳輸距離達(dá)100米(由于傳輸延遲,實(shí)際應(yīng)用中距離可能僅限幾十米)。它采用8對(duì)光纖,每根8波長密集波分復(fù)用(DWDM)。下一步,OCI芯粒(或任何光學(xué)I/O解決方案)將實(shí)現(xiàn)與CPU、GPU或SoC共封,可以優(yōu)化和改善I/O帶寬密度、總能效比、延遲和成本。
對(duì)于OCI芯粒的實(shí)現(xiàn)方式,宋院長也有一個(gè)貼切的比喻,“傳統(tǒng)電氣I/O正在逼近物理極限,好比馬車,傳輸速度和距離都很有限;光學(xué)I/O則像是摩托車甚至汽車,速度快且距離長?!?/p>
OCI芯粒是單一晶圓上硅光混合集成的創(chuàng)新之舉
與普通芯粒相比,OCI芯粒的制造需要哪些特殊的半導(dǎo)體技術(shù)?現(xiàn)有的制造傳統(tǒng)半導(dǎo)體芯片的工廠能否快速轉(zhuǎn)產(chǎn)OCI芯粒?
宋院長解釋說,OCI芯粒是一個(gè)完整的物理層光I/O器件,包括一個(gè)帶有片上密集波分復(fù)用(DWDM)激光器和半導(dǎo)體光放大器(SOA)的硅光子集成電路(PIC),以及一個(gè)用于控制硅光子集成電路和連接主機(jī)的電子集成電路(EIC)。硅光子集成電路采用基于300毫米硅晶圓上運(yùn)行的英特爾硅光子制造工藝,電子集成電路則采用標(biāo)準(zhǔn)CMOS工藝節(jié)點(diǎn)。
目前,英特爾已出貨超過800萬個(gè)硅光子集成電路,包含多達(dá)3200萬個(gè)片上集成激光器,時(shí)基故障率(FIT)小于0.1(時(shí)基故障率是一種廣泛使用的測量可靠性的方法,體現(xiàn)了故障率和發(fā)生故障的次數(shù))。在可插拔光收發(fā)器模塊中已經(jīng)應(yīng)用了這項(xiàng)技術(shù),數(shù)百萬個(gè)可插拔光收發(fā)器模塊已于實(shí)際應(yīng)用中部署,滿足大型數(shù)據(jù)中心100/200/400 Gbps網(wǎng)絡(luò)傳輸速率需求。
完全集成的OCI(光學(xué)計(jì)算互連)芯粒,標(biāo)志著英特爾將半導(dǎo)體激光器與硅基光放大器混合集成于單一晶圓的創(chuàng)新,不僅縮減了體積、降低了功耗,還預(yù)示著規(guī)?;a(chǎn)后,將進(jìn)一步帶來良率提升與成本降低的優(yōu)勢。
宋院長透露,英特爾還正在探索新的硅光子制造工藝節(jié)點(diǎn),該節(jié)點(diǎn)具有先進(jìn)的器件性能、更高的密度、更好的耦合性,并能大幅提高經(jīng)濟(jì)性。英特爾將繼續(xù)在片上激光器和性能、成本(芯片面積減少 40% 以上)和功耗(減少 15% 以上)等方面取得進(jìn)步。并且,英特爾也在與客戶合作,開發(fā)共封OCI和客戶SoC作為光學(xué)I/O的解決方案。
談及OCI芯粒與英特爾CPU集成在技術(shù)層面的挑戰(zhàn),宋院長表示,將光學(xué)I/O芯粒集成到 CPU 或 GPU 封裝中,可能會(huì)增加熱量管理、封裝設(shè)計(jì)和供電方面的需求。不過,英特爾在硅光子領(lǐng)域已深耕超過25年,是硅光集成的開拓者和領(lǐng)導(dǎo)者。依托這些技術(shù)經(jīng)驗(yàn),已經(jīng)能夠滿足這些設(shè)計(jì)需求。
他補(bǔ)充,為了使光學(xué)I/O芯粒更加靈活,并減少集成過程中的工作量,通常會(huì)考慮在主機(jī)xPU與I/O之間使用電氣接口,這些接口已通過健全的IP生態(tài)系統(tǒng)實(shí)現(xiàn)標(biāo)準(zhǔn)化,例如 UCIe、PCIe、以太網(wǎng)等。
OCI芯粒將聚焦三大指標(biāo)持續(xù)迭代升級(jí)
今年以來,數(shù)據(jù)中心普遍進(jìn)入“萬卡”甚至“五萬卡”級(jí)別。在算力集群的構(gòu)建過程中,OCI芯粒可支持距離長達(dá)100米的傳輸,它可以通過提高岸線密度和擴(kuò)展集群中CPU或GPU之間的連接范圍來實(shí)現(xiàn)更高的帶寬,還可以通過支持資源解聚的新架構(gòu)(如HBM或CXL內(nèi)存池化)來實(shí)現(xiàn)更高效的資源利用。面向傳輸速率需求達(dá)800 Gbps和1.6 Tbps的新興應(yīng)用,速度達(dá)200G/通道的硅光子集成電路正在開發(fā)中。
“我們相信,隨著時(shí)間的推移和產(chǎn)量的提升(如新興AI擴(kuò)展所預(yù)期的那樣),在系統(tǒng)層級(jí),光學(xué)I/O的每比特總互連成本將可與電氣I/O相比。此外,光學(xué)I/O性能更強(qiáng),將有助于在系統(tǒng)層級(jí)提高性能”,宋院長表示,“英特爾目前正在開發(fā)第二代硅光子制造工藝節(jié)點(diǎn),預(yù)計(jì)能將芯片面積減少40%以上,從而提高經(jīng)濟(jì)效益,并在功率耗散、光耦合效率、激光功率等方面實(shí)現(xiàn)多重性能提升。”
根據(jù)當(dāng)前的路線圖,英特爾將主要進(jìn)行三方面指標(biāo)的迭代,包括:提高線速率、每條光纖的波長數(shù)、光纖數(shù)量和偏振模式,從而擴(kuò)展未來幾代OCI芯粒的性能,打造出帶寬達(dá)32Tb/s的器件。