“當(dāng)其下筆風(fēng)雷快,筆所未到氣已吞”,看到阿里云CIPU發(fā)布的消息,我腦海里第一時(shí)間冒出了蘇軾的這句詩(shī)。
開啟工業(yè)革命序幕,讓蒸汽機(jī)、鐵路和煤炭成為主要能源的是英國(guó)發(fā)明家瓦特;讓燈泡和電力走入所有人生活的,是美國(guó)發(fā)明家愛迪生;現(xiàn)代計(jì)算機(jī)和互聯(lián)網(wǎng)成為信息時(shí)代的基礎(chǔ)設(shè)施,變革誕生在美國(guó)西海岸。今天,所有人都將算力看作第四次工業(yè)革命的基本能源,將與千行百業(yè)、社會(huì)經(jīng)濟(jì)產(chǎn)生深刻而綿長(zhǎng)的化學(xué)反應(yīng),那么這一次,算力基礎(chǔ)設(shè)施可以由中國(guó)來(lái)定義嗎?
顯然,阿里云想嘗試一下,并且已經(jīng)邁出了關(guān)鍵的一步——正式發(fā)布為新型云數(shù)據(jù)中心設(shè)計(jì)的專用處理器CIPU,展現(xiàn)出取CPU而代之的氣勢(shì)。
CPU制霸計(jì)算產(chǎn)業(yè)半個(gè)世紀(jì)之久,CIPU要另起爐灶何其難也。作為讀者或許會(huì)疑問三連:憑什么?為什么?怎么做?我們不想直接給答案,從大家感興趣的問題出來(lái)進(jìn)行邏輯推演,讀者自然會(huì)思考并得出自己的答案。
提筆:憑什么是中國(guó)?
有一句流行歌詞:沒有人能在我的BGM里打敗我。聽起來(lái)十分自信,不過(guò),這份自信很長(zhǎng)一段時(shí)間是屬于美國(guó)的。1971年,英特爾生產(chǎn)的4004微處理器標(biāo)志著CPU的誕生,隨后與微軟的Windows系統(tǒng)一起組成了著名的“Wintel”聯(lián)盟,成為計(jì)算產(chǎn)業(yè)的現(xiàn)實(shí)標(biāo)準(zhǔn),被廣泛應(yīng)用于PC、高性能服務(wù)器以及云服務(wù)器中。而眾所周知,獲取算力的方式,無(wú)外乎本地硬件(數(shù)據(jù)中心)、云計(jì)算兩種。也就是說(shuō),以CPU為中心的計(jì)算架構(gòu)主宰了信息時(shí)代,支撐了云計(jì)算的崛起。
在這種局面下,中國(guó)廠商打算寫一段全新的旋律,讓別人主動(dòng)走進(jìn)自己的BGM里,憑什么?
首先,CPU這張舊船票,可能登不上算力時(shí)代的船。英特爾CEO早在幾年前就表示過(guò)“摩爾定律已死”,CPU性能提升的速度早已放緩,而隨著數(shù)字化的推進(jìn),數(shù)據(jù)規(guī)模、結(jié)構(gòu)和來(lái)源越來(lái)越廣,單一CPU為中心的計(jì)算架構(gòu),無(wú)法滿足激增的算力需求,計(jì)算架構(gòu)的創(chuàng)新是現(xiàn)實(shí)所需。
其次,圍繞CPU形成的服務(wù)器、操作系統(tǒng)、中間件、數(shù)據(jù)庫(kù)和基礎(chǔ)軟件等應(yīng)用及相關(guān)服務(wù),很長(zhǎng)一段時(shí)間內(nèi)都掌握在歐美主流云廠商手中,中國(guó)數(shù)字經(jīng)濟(jì)要長(zhǎng)期可持續(xù)發(fā)展,對(duì)于算力基礎(chǔ)設(shè)施自然希望有更多選擇,這給中國(guó)廠商創(chuàng)造了新的機(jī)會(huì)。
當(dāng)然,頭部云廠商從業(yè)務(wù)、戰(zhàn)略等維度也早就意識(shí)到了以CPU為中心的隱患,紛紛開始探索新的算力硬件解決方案。近年來(lái)多樣性計(jì)算架構(gòu)不斷涌現(xiàn),比如谷歌發(fā)布了TPU,AWS發(fā)布Arm架構(gòu)的云服務(wù)器,英偉達(dá)嘗試收購(gòu)ARM以擴(kuò)展數(shù)據(jù)中心業(yè)務(wù)。圖靈獎(jiǎng)得主大衛(wèi)·帕特森與約翰·漢尼斯認(rèn)為,接下來(lái)將是計(jì)算架構(gòu)更新的黃金十年。如果不想在第四次工業(yè)革命中依然重復(fù)別人的故事,那么,中國(guó)就必須在計(jì)算架構(gòu)上落下屬于自己的一筆。
落筆:為什么是云計(jì)算?
如前所說(shuō),CPU在本地和云都有應(yīng)用,為什么架構(gòu)創(chuàng)新會(huì)率先從云開始呢?答案其實(shí)也很簡(jiǎn)單,更新的圖紙有更大自由發(fā)揮的空間。
第四次工業(yè)革命從云開始,對(duì)于中國(guó)千行百業(yè)的數(shù)字化來(lái)說(shuō),直接調(diào)用彈性、高并發(fā)、異構(gòu)的云端算力是更理想的選擇;中國(guó)云廠商在技術(shù)能力、市場(chǎng)規(guī)模、生態(tài)方面與全球巨頭在相同起跑線,像阿里云已經(jīng)成長(zhǎng)為與AWS、微軟Azure等同象限的頭部云廠商;更重要的是,方興未艾的數(shù)字經(jīng)濟(jì)催生了新的算力需求和技術(shù)挑戰(zhàn),以CPU為中心的云計(jì)算架構(gòu)越來(lái)越力不從心,中國(guó)云廠商有著更大的創(chuàng)新空間。
簡(jiǎn)單來(lái)說(shuō),云計(jì)算架構(gòu)的創(chuàng)新方向主要有幾個(gè):
1.性能升級(jí)。云計(jì)算一定是性能先行,才能成為千行百業(yè)數(shù)字化的算力底座,尤其是第四次工業(yè)革命中智能技術(shù)的大量應(yīng)用,深度學(xué)習(xí)對(duì)于算力資源的消耗是極大的,要求云處理器提供更強(qiáng)的算力,實(shí)現(xiàn)每比特性能最優(yōu)。不僅需要硬件升級(jí),創(chuàng)新傳統(tǒng)計(jì)算架構(gòu),提升單位算力的效率;還需要軟件升級(jí),解決軟件定義虛擬化中出現(xiàn)的資源損耗。
2.業(yè)務(wù)效益。各行各業(yè)使用云服務(wù),不單單是降低服務(wù)器成本還希望通過(guò)云為管道引入新技術(shù),對(duì)大量業(yè)務(wù)數(shù)據(jù)進(jìn)行分析處理,釋放數(shù)據(jù)價(jià)值,也就是說(shuō)單位算力所能貢獻(xiàn)的GDP要提高。數(shù)據(jù)密集型的計(jì)算越來(lái)越多,算力分布在邊、端、云、網(wǎng)等多個(gè)維度,數(shù)據(jù)的遷移量和吞吐率也增多,解決超大規(guī)模分布式集群之間網(wǎng)絡(luò)傳輸、管理的問題,才能滿足客戶對(duì)低時(shí)延、高帶寬的需求。
3.綠色低碳。上云用數(shù)賦智成為趨勢(shì),計(jì)算無(wú)處不在,算力基礎(chǔ)設(shè)施的能耗問題也引發(fā)社會(huì)關(guān)注,計(jì)算產(chǎn)業(yè)的可持續(xù)發(fā)展,需要低功耗、高性能的并發(fā)處理能力,減少虛擬化中的損耗,以達(dá)到單位比特的能效比最優(yōu),滿足各行各業(yè)綠色低碳、節(jié)能減排的發(fā)展需求。
方興未艾的云計(jì)算,相當(dāng)于一張更新的圖紙,等待著人來(lái)書寫底層計(jì)算架構(gòu)范式轉(zhuǎn)換的新篇章,而阿里云用CIPU率先落下了遒勁的一筆。
入木:CIPU怎么解開算力桎梏?
計(jì)算架構(gòu)更新,是必然的未來(lái),對(duì)于中國(guó)云廠商來(lái)說(shuō),怎樣在自己擅長(zhǎng)的技術(shù)賽道上建立起差異化優(yōu)勢(shì),就成了當(dāng)務(wù)之急。縱覽全球領(lǐng)先的計(jì)算廠商,谷歌專門發(fā)布了應(yīng)對(duì)AI任務(wù)的TPU,亞馬遜在云服務(wù)器、云端AI推理芯片上也有所突破,以GPU為主營(yíng)業(yè)務(wù)的英偉達(dá)也嘗試進(jìn)入數(shù)據(jù)中心業(yè)務(wù)推出DPU,老牌廠商英特爾也推出IPU,國(guó)內(nèi)也有云廠商推出了自己的計(jì)算硬件。
需要注意的是,云端算力實(shí)際上受非常多的條件影響,除了芯片的比拼,還有網(wǎng)絡(luò)、算法優(yōu)化、集群性能、部署環(huán)境、數(shù)據(jù)處理能力、框架等一系列要素,整體決定了云計(jì)算的優(yōu)越性。阿里云為新型云數(shù)據(jù)中心設(shè)計(jì)的專用處理器CIPU,正是考慮到云時(shí)代的算力所需,從三個(gè)層面進(jìn)行管控并加速,來(lái)解開算力桎梏。
·網(wǎng)絡(luò)加速。云和硬件的結(jié)合,必須依靠網(wǎng)絡(luò),管理阿里云全球上百萬(wàn)臺(tái)服務(wù)器并非易事。試想一下,將不同地區(qū)數(shù)據(jù)中心的算力進(jìn)行調(diào)配傳輸,如果網(wǎng)絡(luò)不給力,必然會(huì)導(dǎo)致數(shù)據(jù)傳輸慢、計(jì)算慢,大量實(shí)時(shí)性要求高的任務(wù)如自動(dòng)駕駛、遠(yuǎn)程醫(yī)療、在線教育等,體驗(yàn)就會(huì)受到影響。傳統(tǒng)以CPU為中心的架構(gòu)可沒辦法把手伸到網(wǎng)絡(luò)層,而CIPU因?yàn)榻尤腼w天云操作系統(tǒng),可以直接通過(guò)飛天上的洛神云網(wǎng)絡(luò)管控物理網(wǎng)絡(luò),進(jìn)行硬件加速,構(gòu)建大規(guī)模的分布式RDMA高性能網(wǎng)絡(luò),基礎(chǔ)帶寬從100G升級(jí)至200G,網(wǎng)絡(luò)時(shí)延從22us降低至16us,因此AI任務(wù)、科學(xué)計(jì)算等上云之后,比自建物理機(jī)的集群吞吐量提升了30%,延遲自然也就大大下降了。
·存儲(chǔ)加速。大量云上客戶希望充分釋放數(shù)據(jù)價(jià)值,高吞吐、高并發(fā)的數(shù)據(jù)存算,如果存儲(chǔ)系統(tǒng)跟不上,相當(dāng)于一臺(tái)跑車的油箱只有摩托車那么大,發(fā)動(dòng)機(jī)再?gòu)?qiáng)勁也跑不快。傳統(tǒng)CPU以計(jì)算為中心的設(shè)計(jì),數(shù)據(jù)搬運(yùn)中往往會(huì)產(chǎn)生“存儲(chǔ)墻”和“功耗墻”,一定程度上影響了并行計(jì)算效率。同樣的,CIPU與飛天操作系統(tǒng)相結(jié)合,能夠接入存算分離架構(gòu)的塊存儲(chǔ),并進(jìn)行硬件加速,讓云端存儲(chǔ)可以做到比本地存儲(chǔ)還快,并擁有極大規(guī)模的資源池。通過(guò)全硬件虛擬化和轉(zhuǎn)發(fā)加速,時(shí)延最低可至30us(PLX),IOPS高達(dá)300萬(wàn),存儲(chǔ)時(shí)延存儲(chǔ)帶寬可達(dá)200 Gbps,全面超越市面上的云產(chǎn)品。
·計(jì)算加速。算得快意味著什么?1750 億參數(shù)的 AI 大模型 GPT-3 訓(xùn)練成本約為 1200 萬(wàn)美元,如果算得夠快、損耗夠小,訓(xùn)練成本就能大大下降。而眾所周知,云服務(wù)將物理機(jī)虛擬池化,過(guò)程中或多或少都會(huì)產(chǎn)生一定的損耗,CIPU的出現(xiàn)就解決了算力虛擬化的損耗問題。通過(guò)與神龍計(jì)算平臺(tái)相結(jié)合,將虛擬化轉(zhuǎn)移到專用硬件中進(jìn)行加速,損耗幾乎為零,讓云服務(wù)器的性能表現(xiàn)超越了傳統(tǒng)物理機(jī),還提供硬件級(jí)安全的加固隔離,兼具云端彈性擴(kuò)容的優(yōu)點(diǎn)。對(duì)于云上客戶來(lái)說(shuō),無(wú)疑是更低成本、靈活性的選擇。
在多種計(jì)算架構(gòu)方案中,“飛天操作系統(tǒng)+CIPU”為中心的新一代計(jì)算體系架構(gòu),從最底層的核心硬件到最上層的云原生軟件進(jìn)行革新,替代CPU成為云計(jì)算的管控和加速中心,無(wú)疑是云端算力生產(chǎn)和服務(wù)單位價(jià)值更高、技術(shù)變革更大、基礎(chǔ)底座更強(qiáng)韌的一次探索。
風(fēng)雷:CIPU畫出的跑道通向何方?
中國(guó)工程院院士、清華大學(xué)高性能計(jì)算研究所所長(zhǎng)鄭緯民曾說(shuō),過(guò)去這些年,我國(guó)在云計(jì)算領(lǐng)域主要在軟件層面有創(chuàng)新,發(fā)展了一些開源生態(tài),但還是在傳統(tǒng)IT的格局下追趕。
顯然,CIPU的出現(xiàn),下筆如有風(fēng)雷,撕開由西方主導(dǎo)的計(jì)算產(chǎn)業(yè)天空,露出未來(lái)的一抹天光。乍一看石破天驚,實(shí)則是一場(chǎng)醞釀已久的春雨。
前面提到的飛天操作系統(tǒng)、洛神網(wǎng)絡(luò)、盤古存儲(chǔ),都是阿里云多年不斷突破的云計(jì)算底層技術(shù),經(jīng)過(guò)深入垂直整合,才最終演進(jìn)出以CIPU為中心的全新架構(gòu)形態(tài),解決傳統(tǒng)計(jì)算架構(gòu)無(wú)法解決的問題。以虛擬化零損耗為例,阿里云相關(guān)研發(fā)團(tuán)隊(duì)早在2015年就開始技術(shù)攻關(guān),2017年神龍?jiān)品?wù)器的推出,就已經(jīng)攻克了這一技術(shù)難題。目前,阿里云已經(jīng)建立了芯片、服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫(kù)等自研技術(shù)底座,在Gartner發(fā)布的年度報(bào)告里躋身IaaS整體基礎(chǔ)設(shè)施能力的全球最高分。同時(shí),阿里云也是國(guó)內(nèi)最早實(shí)踐綠色數(shù)據(jù)中心的廠商之一。
那么,這場(chǎng)終于降落在華夏大地上的春雨,會(huì)帶來(lái)怎樣的變化呢?
首先感受到雨露潤(rùn)澤的必然是各行各業(yè)的數(shù)字化,CIPU+飛天體系下,云端算力的單位成本更低、性能更優(yōu)、能耗更低,產(chǎn)業(yè)客戶會(huì)直接受益,用上更加普惠、高效、綠色的算力。
其次,大地滋潤(rùn)后會(huì)生長(zhǎng)出更多創(chuàng)新,讓中國(guó)在數(shù)字經(jīng)濟(jì)占據(jù)領(lǐng)先身位。算力正在許多行業(yè)中釋放潛力,比如云電腦無(wú)影,就將高算力工作從本地轉(zhuǎn)移到云端,無(wú)需高性能終端,依然可以在云端流暢地打造8K畫質(zhì)體驗(yàn),對(duì)于創(chuàng)作者來(lái)說(shuō)是極大的生產(chǎn)力解放。
更進(jìn)一步,各行各業(yè)的創(chuàng)新和計(jì)算軟硬件迭代,共同組成蓬勃的新計(jì)算生態(tài)。就如阿里云智能總裁張建鋒在2022年阿里云峰會(huì)上所說(shuō)的那樣,“現(xiàn)在是重新定義云的窗口期,如果我們定義好了,中國(guó)就可以在下一個(gè)技術(shù)時(shí)代有自己的一席之地”。
回到底層,回到源頭,去做最基礎(chǔ)的計(jì)算架構(gòu)創(chuàng)新,阿里云用行動(dòng)“Back to Basic”,踐行“B2B”策略。這也是為什么云計(jì)算的范式轉(zhuǎn)化應(yīng)該發(fā)生在中國(guó),發(fā)生在此刻。
英國(guó)科普作家馬特·里德利在《創(chuàng)新的起源:一部科學(xué)技術(shù)進(jìn)步史》一書中列舉大量事實(shí)表明,正如6個(gè)世紀(jì)以前,歐洲從日益僵化的中國(guó)手中奪過(guò)創(chuàng)新接力棒一樣,中國(guó)或許即將再次奪回接力棒。
在CIPU如驚雷般地書寫中,中國(guó)云計(jì)算的新樂章已經(jīng)寫下了開頭。何其有幸,我們正見證未來(lái)。