單芯片集成上萬光子器件,成功驗證光子計算優(yōu)越性。
芯東西12月16日報道,今日,光子計算芯片公司曦智科技(Lightelligence)就最新推出的第二代光子計算處理器PACE與芯東西等媒體進(jìn)行交流。
隨著半導(dǎo)體制程微縮逐漸接近物理極限,電子芯片面臨的能耗、傳輸、存儲等方面的挑戰(zhàn)越來越大,兼具高通量(單通道數(shù)據(jù)傳輸>1TB/s)、高能效比(無需電加熱過程)、超低延遲(以光速在計算)的硅光技術(shù)成為新興技術(shù)方向之一。
據(jù)悉,曦智科技PACE在單個光子芯片中集成超過10000個光子器件,運行1GHz系統(tǒng)時鐘,算力是上一代處理器的100萬倍以上,在運行特定循環(huán)神經(jīng)網(wǎng)絡(luò)時比目前高端GPU提速超100倍。
曦智科技創(chuàng)立于2017年,是全球光計算賽道融資規(guī)模最高的公司,累計融資總額超10億元。目前曦智科技擁有全球全職員工近200人,其中技術(shù)人員占比超80%,70%的芯片設(shè)計師擁有10年以上半導(dǎo)體從業(yè)經(jīng)驗。
2017年6月,曦智科技創(chuàng)始人、CEO沈亦晨博士作為第一作者和通訊作者的論文發(fā)表于國際學(xué)術(shù)頂刊《自然·光子》封面,正是這一研究開創(chuàng)性地提出了光子AI計算新路徑,并吸引了十幾家初創(chuàng)公司相繼成立。沈亦晨相信,光子芯片“極有可能成為我們這個時代最重要的技術(shù)創(chuàng)新之一”。他透露道目前曦智科技團隊正全力準(zhǔn)備計劃于2022年推出的新產(chǎn)品,在產(chǎn)品籌備期間,曦智科技將繼續(xù)與半導(dǎo)體供應(yīng)鏈、云計算、金融、自動駕駛等行業(yè)的領(lǐng)導(dǎo)者開展合作,以驗證光子計算的可行性和通用性。
在被問及后續(xù)規(guī)劃時,沈亦晨告訴芯東西,作為顛覆性技術(shù),光子計算技術(shù)需要經(jīng)歷漫長的商業(yè)化過程,曦智科技接下來的規(guī)劃分為三個階段:第一階段從2022年開始,1~3年主要落地于特別能體現(xiàn)光技術(shù)優(yōu)勢的應(yīng)用場景;第二階段,隨著產(chǎn)品在不同場景展現(xiàn)出明確的優(yōu)勢后,將有更大規(guī)模的團隊做訓(xùn)練;第三階段,隨著硬件和軟件體系更加成熟,進(jìn)一步切入GPU、車載芯片等對算力需求非常大的市場。
01.單芯片集成超10000個光子器件,率先落地云計算等場景
2019年4月,曦智科技推出全球首款光子芯片原型板卡,它通過運行神經(jīng)網(wǎng)絡(luò)模型來識別手寫數(shù)字圖像,當(dāng)時其芯片中大約有100個光子元器件,運行速度約為100kHz,完成矩陣乘法所用時間是當(dāng)時最先進(jìn)電子芯片的1%以內(nèi)。但這還遠(yuǎn)未實現(xiàn)光子計算的全部潛力,要將光學(xué)矩陣的理論優(yōu)勢變?yōu)楝F(xiàn)實,需要大量持續(xù)的研發(fā)工作,一個關(guān)鍵問題是如何將大量的光子和電子器件集成在一起。
據(jù)曦智科技聯(lián)合創(chuàng)始人、CTO孟懷宇博士分享,一個商用級的光學(xué)矩陣引擎可能會包含數(shù)以萬計的光子器件,曦智科技的解決方案是自研大規(guī)模集成硅光芯片和電子芯片,然后使用先進(jìn)封裝工藝將它們堆疊在一起。經(jīng)過兩年研發(fā),曦智科技推出其第二代光子計算處理器——PACE(the Photonic Arithmetic Computing Engine,光子計算引擎)。
這是曦智科技技術(shù)路線中的一個重要里程碑,首次驗證了光子計算的優(yōu)越性,也是首次展示了光子計算在人工智能和深度學(xué)習(xí)之外的應(yīng)用案例。 沈亦晨認(rèn)為,光電混合計算的重要技術(shù)演進(jìn)點,是不斷增加單個光芯片上的器件集成度。因此過去四年,曦智科技將最早4x4光子矩陣乘法的十幾個光器件集成在一個芯片上,提升到此次PACE單芯片集成上萬個器件,提高大約3個數(shù)量級。
PACE內(nèi)含目前已知的全球集成度最高的光子芯片,實現(xiàn)了在單個芯片中集成超過10000個光子器件,運行系統(tǒng)時鐘達(dá)1GHz,單芯片算力是上一代處理器的超100萬倍。測試顯示,運行特定循環(huán)神經(jīng)網(wǎng)絡(luò)時,PACE的運算速度可達(dá)目前高端GPU的上百倍。
曦智科技也準(zhǔn)備開源軟件源代碼,供感興趣者用各種硬件去做比較。在落地方面,曦智科技首先切入云計算、智能駕駛、量化交易、生物醫(yī)藥等應(yīng)用場景,目前已與全球前五大云服務(wù)供應(yīng)商之一、美國前三大商業(yè)銀行之一有深度合作。
02.采用3D封裝堆疊技術(shù),兼具高能效、低時延、高通量
光技術(shù)適合用于解決現(xiàn)有電芯片普遍面臨的能耗瓶頸、傳輸瓶頸、存儲瓶頸。在數(shù)據(jù)搬運方面,光已在光通訊領(lǐng)域充分證明了其技術(shù)的領(lǐng)先性和優(yōu)勢,目前所有長距離通訊,包括數(shù)據(jù)中心里服務(wù)器與服務(wù)器之間的數(shù)據(jù),都是通過光纖來代替導(dǎo)線進(jìn)行的,光進(jìn)一步進(jìn)入到芯片中參與運算也成一種趨勢。
另一方面,現(xiàn)在大數(shù)據(jù)越來越大的比例是在做線性運算,而曦智科技發(fā)明了一種用光有效、高效地做線性計算的方式,這是其另一個重要優(yōu)勢。當(dāng)光在非均勻介質(zhì)中傳播和散射時,其形態(tài)類似于某種形式的數(shù)學(xué)線性運算。
曦智科技利用光執(zhí)行向量矩陣算法(簡稱matmul),當(dāng)光進(jìn)入系統(tǒng)時,它會被一組光學(xué)調(diào)制器編碼以形成輸入光矢量,然后它便進(jìn)入可編程光學(xué)散射介質(zhì)的區(qū)域,輸入光矢量經(jīng)過矩陣后,輸出光矢量自然就代表了矩陣乘法的結(jié)果。
由于矩陣乘法本身是被動的,這個過程中不會消耗任何能量,此外矩陣乘法是在光通過矩陣所需的時間內(nèi)完成的,僅需幾分之一納秒,最后高能效和低時延性能與輸入光信號的頻率無關(guān),這就意味著光矩陣可以支持高通量。
總結(jié)來說,高能效、低時延、高通量是光學(xué)矩陣運算能夠超越摩爾定律、繼續(xù)提升算力的關(guān)鍵。
需強調(diào)的是,PACE是一個光電混合計算系統(tǒng),而非純光子計算,光芯片更多承接線性計算和數(shù)據(jù)網(wǎng)絡(luò)等主要任務(wù),由電芯片發(fā)出指令以及與客戶交互,這使得PACE能與現(xiàn)有市場軟件環(huán)境兼容。
PACE包含64x64的光學(xué)矩陣,核心部分由一塊集成硅光芯片和一塊CMOS微電子芯片以3D封裝形式倒裝堆疊而成,充分展示了光子芯片與傳統(tǒng)電子芯片無縫協(xié)同的運作方式。其電子芯片包含數(shù)字電路和模擬電路。數(shù)字電路部分由控制邏輯和SRAM組成,前者負(fù)責(zé)調(diào)節(jié)數(shù)據(jù)流和輸入輸出,后者用于片上數(shù)據(jù)存儲。
模擬電路部分則是數(shù)字邏輯和光子器件之間的橋梁。對于每個光學(xué)矩陣乘法,輸入向量值首先從片上SRAM中提取,由數(shù)模轉(zhuǎn)換器轉(zhuǎn)換為模擬值,然后通過電子芯片和光子芯片之間的微凸點應(yīng)用于相應(yīng)的光調(diào)制器,光調(diào)制器相應(yīng)地減弱入射光,形成輸入光矢量。
整個64x64光學(xué)矩陣用類似機制進(jìn)行編碼。接著輸入光矢量通過光矩陣傳播,產(chǎn)生輸出光矢量,并達(dá)到一組光電探測器陣列,從而將光強轉(zhuǎn)換為電流信號,最后電信號通過微凸點返回到電子芯片,通過跨阻放大器和數(shù)模轉(zhuǎn)換器返回數(shù)字域。
PACE上共有數(shù)千個微凸點來幫助電子芯片和光子芯片之間的數(shù)據(jù)傳輸。除了3D封裝的光子和電子芯片外,PACE還使用了光纖陣列連接激光源,整個組件被安裝在了一塊PCIe卡尺寸的PCB板上,如電源系統(tǒng)輸入輸出連接器等外圍部件也都連接到PCB板上。
值得注意的是,最新發(fā)布的PACE芯片,不是為了在通用性上證明跑所有神經(jīng)網(wǎng)絡(luò),更多是要證明光計算優(yōu)勢的上限或潛力。之所以選擇循環(huán)神經(jīng)網(wǎng)絡(luò),是因為其相對獨立地將矩陣優(yōu)勢發(fā)揮出來,沈亦晨透露說,明年曦智科技可能會推出一個更通用化的產(chǎn)品。
03.可用于解決NP-complete問題
PACE可用于解決組合問題,通過重復(fù)矩陣乘法和巧妙利用受控噪聲組成的緊密回環(huán)來實現(xiàn)低延遲,生成如伊辛問題(Ising)和最大割/最小割問題(Max-cut/Min-cut)的高質(zhì)量解決方案。這些困擾了全球數(shù)學(xué)家近50年的難題,屬于多項式復(fù)雜程度的非確定性問題(NP-complete),即在多項式時間尺度下無法通過數(shù)學(xué)方法解決的問題。
相關(guān)算法被廣泛應(yīng)用于生物信息、交通調(diào)度、電路設(shè)計、材料發(fā)現(xiàn)等領(lǐng)域。而一旦一個NP-complete問題得到解決,就可以相對容易地將解決方法映射到其他NP-complete問題上。
最大割問題便是一個很好的例子。假設(shè)有一組頂點,用邊將它們連接起來,形成不規(guī)則的圖形,如果將定點分成兩個互補的子集,那么它們之間會有一些邊,兩個子集之間邊最多的分組方法成為最大割。最大割的另一個等價定義是,兩個子集內(nèi)部邊最少的分組方法,曦智科技選擇用迭代法來解決最大割問題,解決這個問題需要用到大量的連續(xù)矩陣乘法,而低功耗、低時延的光學(xué)矩陣非常適合這種計算。
在這個動畫中,定點用兩種顏色標(biāo)記,代表兩個子集,連接相同顏色定點的邊在顏色對應(yīng)的子集的內(nèi)部,它們也標(biāo)有相應(yīng)的顏色。其目標(biāo)是最小化彩色邊緣的數(shù)量。迭代過程從隨機顏色分組開始。初始情況下,許多邊是彩色的,每次迭代時,頂點的顏色分組都會發(fā)生變化,使得著色的邊的數(shù)量變少,曦智科技有意加入了噪聲信號,這個過程會經(jīng)常往復(fù)。最終,顏色分組將收斂到最大割,每次迭代都會執(zhí)行一次光學(xué)矩陣運算。由于光學(xué)矩陣的超低時延,PACE的運算速度比高端GPU要快數(shù)百倍。
04.從光計算到光互連,曦智科技的三大硬核技術(shù)
曦智科技工程副總裁Maurice Steinman是一位擁有超過24次成功流片和產(chǎn)品介紹經(jīng)驗的行業(yè)老將,是SoC架構(gòu)、SoC互聯(lián)、內(nèi)存子系統(tǒng)和電源管理方面的專家。他曾先后任職于Digital、康柏、惠普、英特爾等公司,并在AMD擔(dān)任Senior Fellow和首席架構(gòu)師,曾主持開發(fā)了被譽為AMD芯片基石的用于高通量信息傳輸?shù)钠炫灝a(chǎn)品infinity fabric總線。
Maurice Steinman談道,PACE已成功驗證了曦智科技產(chǎn)品路線中的光計算模塊,另一重要模塊則是光互連。“我們的光互連技術(shù)可用于多種傳輸介質(zhì),包括光纜以及在芯片、中介層和晶圓層面集成的波導(dǎo),并提供高通量、低時延和高能效的數(shù)據(jù)傳輸和互連,光計算和光互連技術(shù)的結(jié)合為面向加速器、服務(wù)器和數(shù)據(jù)中心需求的高性能產(chǎn)品奠定了堅實的基礎(chǔ)。”
總體來看,曦智科技的技術(shù)主要分成三大部分:oMAC-光學(xué)乘積累加運算、oNOC-片上光網(wǎng)絡(luò)、oNET-片間光網(wǎng)絡(luò)。
(1)oMAC-光學(xué)乘積累加運算:這是一種模擬計算,用光替代傳統(tǒng)電子進(jìn)行數(shù)據(jù)處理。數(shù)據(jù)可加載在光的強度或相位上,數(shù)據(jù)流動的同時進(jìn)行計算。oMAC執(zhí)行線性運算也可理解為矩陣-矩陣或矩陣-向量之間的乘法。其實現(xiàn)方式是采用與CMOS兼容的硅光工藝平臺,光-電協(xié)同設(shè)計,結(jié)合先進(jìn)封裝技術(shù);采用高速可調(diào)、小尺寸電光調(diào)制器設(shè)計;通過新穎的計算架構(gòu)-基于MZI結(jié)構(gòu)的相干/非相干方案,來做光與光之間干涉;最后硬件-算法的協(xié)同優(yōu)化。它的優(yōu)勢在于光計算并行能力更強,能效媲美甚至更優(yōu)于電子芯片,且延遲超低。此外,硅光對工藝制程要求和成本很低,比如一個65nm或45nm的CMOS工藝器件就能滿足現(xiàn)在光子計算所有的要求,其制造工藝成本遠(yuǎn)低于電芯片。
(2)oNOC-片上光網(wǎng)絡(luò):通過波導(dǎo)代替銅導(dǎo)線的方式,讓數(shù)據(jù)在光芯片網(wǎng)絡(luò)中傳遞,可實現(xiàn)單個電芯片(EIC) 內(nèi)部的數(shù)據(jù)傳輸、封裝內(nèi)部多個電芯片 (EIC) 之間的數(shù)據(jù)通信。其實現(xiàn)方式是在光芯片上構(gòu)建一個固定或可靈活調(diào)整的通訊網(wǎng)絡(luò)拓?fù)?/a>,將不同的電芯片與其中單個或多個節(jié)點相連,實現(xiàn)基于oNOC的數(shù)據(jù)交互;采用形式有基于光廣播的網(wǎng)絡(luò)拓?fù)浜突?a class="article-link" target="_blank" href="/baike/1547700.html">波分復(fù)用的網(wǎng)絡(luò)拓?fù)洹K闹饕獌?yōu)勢是高帶寬、低能耗、低延遲、距離不敏感。另外,該方法通用性強,可將不同類型的電子芯片與之結(jié)合,為芯片間提供高速、低能耗的互連,適用于有高帶寬需求的應(yīng)用場景。
(3)oNET-片間光網(wǎng)絡(luò):光芯片起到類似optical BUS的作用,將單元內(nèi)部需要傳輸?shù)臄?shù)據(jù)集中起來,通過光傳播介質(zhì)(如光纖)與其他單元進(jìn)行數(shù)據(jù)交互。該技術(shù)主要用于優(yōu)化計算單元之間的通信效率。相比傳統(tǒng)電互連,光網(wǎng)絡(luò)的能效比高、光學(xué)傳播損耗低、帶寬高、延遲低,且傳輸距離不敏感。
其實現(xiàn)方式如圖,D-EIC是數(shù)據(jù)處理單元也是數(shù)據(jù)傳輸?shù)慕K端,A-EIC是模擬電芯片,協(xié)同PIC對需要發(fā)送或者接受的信號進(jìn)行處理,實現(xiàn)信號的光-電與電-光轉(zhuǎn)換。發(fā)送時,數(shù)據(jù)由D-EIC→A-EIC(穿過PIC)→PIC→外部;接收時,數(shù)據(jù)由外部→PIC→A-EIC→D-EIC(穿過PIC)。
05.結(jié)語:光子計算芯片的商用序幕拉開
總的來看,曦智科技的新一代PACE處理器利用光的基本特性,進(jìn)行高效節(jié)能的算術(shù)計算與數(shù)據(jù)傳輸,以此應(yīng)對傳統(tǒng)電子架構(gòu)面臨的數(shù)據(jù)通信和算力挑戰(zhàn)。
光子計算不是靠堆錢就能用最好工藝、成熟設(shè)計流程做出來的,它需要付諸相當(dāng)長的研發(fā)努力,從器件設(shè)計、封裝方式到軟硬一體化總體優(yōu)化都需要時間積累,不是一蹴而就的事情,因而先發(fā)優(yōu)勢非常重要,這也是曦智科技的核心競爭力。
沈亦晨相信,任何一家公司,無論資本多么雄厚,如果從現(xiàn)在開始做,要做出PACE這樣的產(chǎn)品,至少需要三年的時間。另一方面,從成立至今,曦智科技已經(jīng)組建了全球最強、最完整的做光電混合計算的團隊,從硅光到數(shù)字、模擬、軟件,這個團隊已經(jīng)充分磨合四年,這也是曦智科技所積累最大的財富。
當(dāng)然,新技術(shù)往往面臨很多挑戰(zhàn),需要付出長久的研發(fā)努力。如今光子計算這個新興賽道正越來越受到認(rèn)可,更多創(chuàng)企及大公司開始參與進(jìn)來。在生態(tài)方面,曦智科技先在軟件方面兼容現(xiàn)有生態(tài),后續(xù)還將通過合作,推動供應(yīng)鏈走向成熟。