11月4日,2022杭州云棲大會《互聯(lián)網(wǎng)產業(yè)與飛天技術創(chuàng)新》峰會上,阿里技術風險與效能負責人張瓅玶表示,經過持續(xù)多年上云用云,今年阿里巴巴集團在PaaS(包括大數(shù)據(jù)、機器學習平臺、數(shù)據(jù)庫中間件等)支持的業(yè)務形態(tài)中支出占用云總成本達43%,阿里業(yè)務已進入“全面云原生深度用云”階段。
以云計算發(fā)展歷程來看,用云形態(tài)主要包括IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)三類。企業(yè)在數(shù)字化轉型初期,主要借助云計算能力構建IaaS資源平臺,統(tǒng)一云上云下資源以提升效率。隨著大數(shù)據(jù)、AI產業(yè)發(fā)展,帶來了算力需求的變化,用云形態(tài)也發(fā)生改變,對IaaS投入比重越低,意味著用云越好。據(jù)IDC報告顯示,2021年中國公有云(IaaS+PaaS)市場PaaS支出占比為16.8%,相比之下,阿里巴巴在PaaS投入比重已超過業(yè)內平均水平。
作為全球首家將所有業(yè)務放在公共云上的科技企業(yè),阿里在過去十年經歷了云計算能力從單點試驗到規(guī)?;瘧玫能S遷式變革。2015年阿里電商業(yè)務增長,開始雙11彈性上云以解決大促資源的計算缺口;2019年阿里實現(xiàn)核心系統(tǒng)上云,到2020年實現(xiàn)全面云原生化,直至2021年阿里完成了包括電商主營業(yè)務在內的數(shù)千萬核心算力、30余萬應用的全面上云。
在大規(guī)模業(yè)務上云、深度用云的過程中,成本優(yōu)化對企業(yè)來說是一項不小的挑戰(zhàn)。張瓅玶表示,對于阿里來說,這取決于對成本的理解和考量。他認為,傳統(tǒng)認知中把物理機器成本做簡單的分攤是不全面的,成本應以業(yè)務單位算力成本來看?!凹纫吹秸麄€機房和集群的分配、閑置的影響,也要看到業(yè)務架構、資源利用率水平,存儲和網(wǎng)絡的彈性能力等對成本和效能的影響?!?/p>
以阿里推動上云業(yè)務升級的云產品Flink為例,業(yè)務主體在兩個月時間內完成了云上遷移,實現(xiàn)性能提升30%以上,成本下降30%,整個過程不需要關注原有集群機器閑置成本以及產品研發(fā)團隊投入。
過去三年,阿里從核心系統(tǒng)上云、到全面深度用云,正式實現(xiàn)了從統(tǒng)一調度到全面FinOps(云成本優(yōu)化)實踐,即運用成本管理體系支撐優(yōu)化,通過云計算的彈性能力實現(xiàn)了機器閑置率下降和支持峰值分配率的提升、神龍?zhí)摂M化架構帶來的CPU利用率提升、以及存儲、網(wǎng)絡彈性成本下降,最終帶來業(yè)務整體單位算力成本下降。
除了成本優(yōu)化,全面深度用云也帶來了阿里業(yè)務的敏捷創(chuàng)新。通過用云產品靈駿智能計算快速實現(xiàn)超大規(guī)模機器學習模型訓練交付,在大規(guī)模稀疏場景中,訓練萬億樣本數(shù)據(jù)時間從兩周縮短到半周,提效四倍,訓練集群成本下降50%。通過對阿里集團調用量最大的數(shù)據(jù)庫之一Tair的用云優(yōu)化,今年雙11淘寶購物車擴容技術以輕量化連接、異步支持技術支撐起超大連接數(shù),使單集群訪問流量達到100GB/s,承載數(shù)億用戶同時在線加大購物車。
截止目前,阿里已經使用了60多款重點云產品,這些產品支持集團業(yè)務在全球多個可用區(qū)開箱即用,不但減少大量運維成本,也可實現(xiàn)隨時彈性,并且歷經雙11穩(wěn)定性考驗。
張瓅玶表示,全面云原生深度用云是算力經濟時代的下一個開始。今年,阿里巴巴確立了以“云原生”作為集團整體技術架構的戰(zhàn)略,向Serverless化邁進。9月,淘寶首頁核心應用率先實現(xiàn)了Serverless架構升級,通過更輕量靈活規(guī)范地用云,實現(xiàn)業(yè)務快速迭代創(chuàng)新。