2022云棲大會上,阿里巴巴集團副總裁、阿里云基礎(chǔ)設(shè)施負責人周明表示,阿里云將服務(wù)器、網(wǎng)絡(luò)、數(shù)據(jù)中心進行了一體化架構(gòu)升級,打造成“一臺超高速運轉(zhuǎn)的計算機”,并為這臺發(fā)動機研發(fā)了一套超高性能的網(wǎng)絡(luò)——磐久PredFabric,長尾時延顯著降低90%,低至2微秒。
?
磐久超高性能網(wǎng)絡(luò)?解決AI算力難題
?
近幾年人工智能、機器學習相關(guān)需求井噴,AI算力需求每3.5個月翻一倍,過去六年已增長了30萬倍,面對這種爆發(fā)式的算力需求,簡單粗暴的硬件堆砌不可持續(xù)。雖然市面上許多AI硬件(包括GPU、FPGA等)的計算能力很強大,但它們的內(nèi)存資源非常稀缺,當內(nèi)存資源不足時,要么運算停滯,要么會增加數(shù)據(jù)的無效傳輸,帶來很大的運行開銷,增加了時間成本。
?
周明透露,阿里云工程師為此打造了一套“磐久超高性能網(wǎng)絡(luò)”,采用自研的Solar-RDMA高速網(wǎng)絡(luò)協(xié)議,使處理器可以通過load/store指令訪問其他任意服務(wù)器的內(nèi)存,非常適合深度學習模型內(nèi)神經(jīng)網(wǎng)絡(luò)的交互形態(tài),相比傳統(tǒng)模式可降低長尾時延90%以上,最低可至2微秒。
?
同時,阿里云將云服務(wù)器的接入帶寬提升了一倍,可達1.6Tbps,再配合上層的融合通信庫ACCL,實現(xiàn)了在AI場景下的通信效率倍增,保障集群算力的線性輸出,確保在大流量突發(fā)場景甚至部件異常的情況下,整個數(shù)據(jù)中心仍能保持穩(wěn)定、高效的運轉(zhuǎn)。
?
“靈駿”智算助力人工智能?釋放高效算力
?
基于這套超高性能網(wǎng)絡(luò)技術(shù)及軟硬一體化能力,今年6月阿里云推出了新一代智能計算產(chǎn)品——靈駿,可最小化所有非計算開銷,實現(xiàn)5倍的通信性能提升,千卡并行計算效率高達90%。
?
目前,“靈駿”不僅在阿里巴巴集團內(nèi)大規(guī)模部署,也為廣大企業(yè)提供算力服務(wù)。今年8月,小鵬汽車就基于“靈駿”建成了中國最大的自動駕駛智算中心“扶搖”,用于自動駕駛模型訓練,訓練速度相比傳統(tǒng)模式下提升了近170倍。
?
通過與阿里云合作,“扶搖”以更低成本實現(xiàn)了更強算力,將GPU資源虛擬化利用率提高3倍,端對端通信延遲降低90%至2微秒。整體計算效率上,實現(xiàn)了算力的線性擴展。存儲吞吐比業(yè)界20GB/s的普遍水準提升了40倍,數(shù)據(jù)傳輸能力相當于從送快遞的微型面包車,換成了20多米長的40噸集裝箱重卡。
?
更綠色低碳的全球云計算基礎(chǔ)設(shè)施
?
目前,阿里云基礎(chǔ)設(shè)施層已形成了服務(wù)器、網(wǎng)絡(luò)、數(shù)據(jù)中心一體化架構(gòu)設(shè)計,具備計算異構(gòu)、資源池化和加速引擎三大能力,支撐上層云計算產(chǎn)品和應(yīng)用平臺的算力釋放最大化,從而實現(xiàn)數(shù)據(jù)中心利用率的全局最優(yōu)。
?
同時,阿里云還積極推動數(shù)據(jù)中心低碳轉(zhuǎn)型,自主研發(fā)了單相浸沒液冷技術(shù),PUE低至1.09,大幅降低數(shù)據(jù)中心散熱能耗。在清潔能源使用方面,2022年1-9月,阿里云五大數(shù)據(jù)中心清潔能源使用占比超過50%,累計減排二氧化碳77.4萬噸,位列國內(nèi)科技公司榜首。
?
“綠色是檢驗數(shù)據(jù)中心的黃金標準,我們將持續(xù)加強綠色自研技術(shù)創(chuàng)新投入,積極開展清潔能源電力交易,推動數(shù)據(jù)中心減碳增效?!敝苊鞅硎?。
?