作者:單志廣 涂菲菲
責編/版式:蓋貝貝
審校:王 濤?梅雅鑫
監(jiān)制:劉啟誠
2024年《政府工作報告》提出,“開展‘人工智能+’行動,打造具有國際競爭力的數(shù)字產(chǎn)業(yè)集群?!边@既順應全球人工智能發(fā)展趨勢,也反映了未來中國產(chǎn)業(yè)升級的現(xiàn)實需求,開啟了人工智能技術(shù)在各行各業(yè)廣泛應用的新篇章。人工智能技術(shù)和應用創(chuàng)新不斷加速、模型復雜度和數(shù)據(jù)量急劇增加,對包括算力在內(nèi)的新型基礎(chǔ)設(shè)施建設(shè)提出了新需求。
從實踐層面看,目前我國算力資源在規(guī)模和使用成本等方面仍然不能滿足人工智能規(guī)?;瘧煤涂焖俚鷦?chuàng)新的需要,因此建立適應人工智能時代的高質(zhì)量算力服務體系迫在眉睫。公有云是破解我國人工智能時代算力“供不上、用不起”瓶頸問題的重要抓手。公有云具有大規(guī)模集群管理能力,能以資源利用效率最大化的方式,幫助提升我國算力供給能力,并通過規(guī)模經(jīng)濟效應推動算力“門檻”降低,讓更多的用戶享受普適普惠的算力服務。公有云和人工智能相結(jié)合還將推動“云計算”走向“云智算”,云計算不再局限于IT計算本身,而是提供算力、模型、數(shù)據(jù)、生態(tài)等與智能化發(fā)展相關(guān)的全方位創(chuàng)新服務,從而促進“人工智能+”切實落地,助推新質(zhì)生產(chǎn)力不斷發(fā)展。
01、公有云已成為人工智能時代,數(shù)智化發(fā)展的戰(zhàn)略抉擇
公有云已成為支撐國際領(lǐng)先大模型的云服務首選
自2022年底ChatGPT發(fā)布以來,全球大型科技企業(yè)掀起了“基礎(chǔ)大模型之戰(zhàn)”,不斷升級大模型版本。盡管公有云和私有云都可用于基礎(chǔ)大模型訓練,但基礎(chǔ)大模型在訓練時一般需要調(diào)度萬顆以上GPU,需要極強的專業(yè)技術(shù)能力,因此國際領(lǐng)先的基礎(chǔ)大模型通常使用公有云訓練。例如,OpenAI的ChatGPT部署在微軟Azure云上,Anthropic的Claude和Meta的LLaMA部署在亞馬遜AWS云上,Midjourney和Google的Gemini部署在谷歌云上。公有云巨頭不僅在基礎(chǔ)大模型訓練中扮演了關(guān)鍵角色,而且在大模型應用服務中也發(fā)揮了重要作用。在公有云上部署大模型,不僅能讓用戶及時獲取大模型的最新功能和應用,還可以通過其PaaS(PlatformasaService,平臺即服務)層和SaaS(SoftwareasaService,軟件即服務)層為用戶提供豐富的工具、組件和應用,支撐千行百業(yè)智能化應用。截至2023年11月,已有超過18000家組織通過Azure接入OpenAI大模型服務。
公有云已成為破解全球算力瓶頸的核心手段
大模型發(fā)展帶來了AI算力需求的快速上升,其所消耗的計算資源每3~4個月翻一倍,算力需求的增長速度已經(jīng)遠超芯片性能提升和產(chǎn)能擴張速度的上限。隨著大模型用戶規(guī)模的快速增長,推理算力需求也迅速上升,算力資源緊缺已成為制約大模型規(guī)?;瘧玫闹饕款i。據(jù)估算,截至2023年8月,全球范圍內(nèi)英偉達GPU芯片H100的供給缺口超過43萬顆。受限于封裝技術(shù)及產(chǎn)能不足,H100訂單交貨周期長達36周到52周不等。我國由于高端芯片進口受限,算力緊缺問題愈加突出。而充分發(fā)揮公有云大規(guī)模機器調(diào)度、異構(gòu)芯片兼容能力,不僅能將已有先進芯片集約化利用,還能充分利用已有的通用CPU資源,為大模型訓練和推理應用提供必要的算力支持。隨著公有云技術(shù)體系加速升級,AI訓練、AI推理以及HPC超算等計算資源將并池管理,實現(xiàn)算力普惠和模型普及。
公有云已成為智能產(chǎn)業(yè)降本增效的必由之路
算力成本是限制大模型發(fā)展的關(guān)鍵因素之一,中小型人工智能企業(yè)往往難以通過自建算力設(shè)施滿足訓練和推理算力需求,因此算力租賃需求迫切。然而,由于高端芯片進口受限等外部因素,當前市場上算力租賃業(yè)務價格不菲。有觀點認為,一旦算力成本降到目前的1%,大模型就能實現(xiàn)真正的普及。公有云以其網(wǎng)絡效應和規(guī)模效應,具備降低成本的潛力。隨著用戶規(guī)模增加、技術(shù)優(yōu)化和運營效率提升,公有云廠商持續(xù)降低云計算服務價格。例如,亞馬遜AWS曾連續(xù)三年每年降價12次;過去十年阿里云將計算成本降低了80%,存儲成本降低了近90%。此外,公有云平臺通過“平臺+低代碼+生態(tài)”的方式,構(gòu)建普惠化、個性化、低成本的技術(shù)架構(gòu)和解決方案,幫助企業(yè)專注于業(yè)務創(chuàng)新,加速技術(shù)的迭代與升級。例如,Discord依托谷歌云平臺,從一個聊天溝通平臺變成AI創(chuàng)新應用的“首發(fā)”驗證平臺,支持了Midjourney和Pika的成長。
02、我國公有云發(fā)展態(tài)勢和面臨的挑戰(zhàn)
市場增長乏力,需求引導不足無論是從理論上還是國際市場發(fā)展趨勢來看,算力服務最經(jīng)濟的方式是將算力集中在云廠商手中,以公有云模式提供算力服務。近年來,國際公有云市場保持快速增長態(tài)勢,而我國公有云市場卻表現(xiàn)為增速放緩。如圖1所示,2016—2022年,全球公有云服務市場實現(xiàn)了蓬勃發(fā)展,市場規(guī)模從2016年的8540億元增長到2022年的38206億元。其中,我國公有云服務規(guī)模從2016年的203億元增長到2022年的2479.4億元。在經(jīng)歷了快速增長期之后,近年來我國公有云市場增速逐步放緩,已低于全球平均增速。與全球趨勢對比,我國公有云市場不僅份額小,發(fā)展動力也不足。
圖1 2016—2022年全球公有云服務規(guī)模增長情況(根據(jù)IDC公開資料整理)
從需求端看,最積極使用公有云的互聯(lián)網(wǎng)行業(yè)近幾年發(fā)展持續(xù)低迷,占據(jù)IT支出大頭的政企領(lǐng)域更加偏好私有云、混合云。據(jù)國際咨詢機構(gòu)Gartner數(shù)據(jù)顯示,2021年中國混合云占比達到了42%,預計2024年中國混合云占比將達到70%,遠高于全球平均水平(50%)??梢娢覈性剖袌鲈鏊僭诔掷m(xù)下滑,而混合云、私有云保持穩(wěn)定增長。私有云過多將導致我國算力產(chǎn)業(yè)和軟件服務業(yè)碎片化,對未來人工智能產(chǎn)業(yè)、數(shù)字經(jīng)濟核心產(chǎn)業(yè)以及新質(zhì)生產(chǎn)力整體提升都將造成一定的阻礙。
“重硬輕軟”導致失衡,服務效能不佳
云計算通常以IaaS(InfrastructureasaService,基礎(chǔ)設(shè)施即服務)、PaaS、SaaS等方式向外提供服務。早期以IaaS服務為主,隨著產(chǎn)業(yè)發(fā)展的深入,各行業(yè)領(lǐng)域?qū)τ谏显朴迷品盏男枨笥佣鄻踊?,因此應更加重視服務的?chuàng)新和對應的生態(tài)支持??v觀全球云計算市場,SaaS服務的占比不斷提升,而我國則呈現(xiàn)IaaS服務占比提升、SaaS發(fā)展遲緩的趨勢,如圖2所示。靈活便捷的軟件應用支撐服務供應不足,使得用戶用云服務成本較高,從長遠來看難以形成可持續(xù)發(fā)展的優(yōu)質(zhì)云服務生態(tài)。
圖2 2022年中國與全球公有云服務結(jié)構(gòu)對比
從公有云服務結(jié)構(gòu)來看,我國與全球發(fā)展狀況存在差異。我國公有云服務形式以提供IaaS為主,PaaS、SaaS的市場占比較低,存在平臺和軟件方面的服務短板。Gartner數(shù)據(jù)顯示,2022年我國公有云IaaS、PaaS、SaaS市場規(guī)模占比分別為58.24%、16.12%、25.64%,以IaaS為主;同年,全球公有云市場IaaS、PaaS、SaaS市場規(guī)模占比分別為31.50%、28.84%、39.67%,SaaS是主體。此外,IDC數(shù)據(jù)顯示,2023年我國IaaS市場占比進一步提升,SaaS市場占比持續(xù)降低,與全球公有云服務結(jié)構(gòu)差異愈加凸顯。
算力資源分散,利用效率不高
近年來,我國算力總規(guī)模高速增長,但算力資源未能實現(xiàn)充分利用。2018—2022年,我國在用數(shù)據(jù)中心機架總規(guī)模年均增速超過30%,但2022年上架率僅為58%,低于全球平均水平(60%)和歐美發(fā)達國家平均水平(65%)。其中一個重要原因是,私有建設(shè)比例高,開放不充分的算力服務市場導致大量算力供給浪費。近年來我國云市場出現(xiàn)了明顯的分野,騰訊云、阿里云等更聚焦發(fā)展公有云,而大量云廠商更多在混合云、私有云上發(fā)力,導致算力建設(shè)日趨分散。從使用效率看,公有云資源使用效率一般可達30%~40%,如亞馬遜AWS、谷歌、阿里云等云廠商;而私有云資源使用效率一般約為5%~10%,如國內(nèi)大量企業(yè)自建的數(shù)據(jù)中心。2022年,我國以公有云形式提供服務的算力占比僅為28%,大部分服務器以私有化部署的形式存在,部分城市通過自建數(shù)據(jù)中心來承載政務信息系統(tǒng),金融機構(gòu)和大型央國企出于數(shù)據(jù)安全和資產(chǎn)保值的目的大多也自建數(shù)據(jù)中心。由此可見,我國的算力資源分散,小規(guī)模、分散運營的傳統(tǒng)機房普遍存在,難以形成統(tǒng)一的公有云服務市場,缺乏可持續(xù)發(fā)展的競爭力。
03、人工智能時代我國公有云長效發(fā)展路徑
以需求為導向,完善產(chǎn)業(yè)生態(tài)、優(yōu)化服務供給
為有效擴大公有云使用需求,應從完善產(chǎn)業(yè)發(fā)展生態(tài)和優(yōu)化服務供給兩端發(fā)力。一方面,充分發(fā)揮政府在優(yōu)化營商環(huán)境中的主導作用,營造更加公平的市場競爭環(huán)境,助力公有云產(chǎn)業(yè)生態(tài)培育和健康發(fā)展。一是在算力基礎(chǔ)設(shè)施建設(shè)中給予網(wǎng)絡直連、能耗、土地、稅收等方面政策傾斜。二是鼓勵財政資金購買公有云服務,將企業(yè)購買云服務納入研發(fā)費用加計扣除稅收優(yōu)惠。三是將基于云計算構(gòu)建的數(shù)字產(chǎn)品與服務納入資產(chǎn)入表范圍。另一方面,面向用戶多元化、個性化的用云需求,提升多元算力的融合供給能力。一是支持對異構(gòu)芯片進行統(tǒng)一納管、池化、調(diào)度以及對異構(gòu)算力集群的統(tǒng)一管理,形成對多源異構(gòu)算力資源的統(tǒng)一調(diào)度能力,提供可靠、穩(wěn)定的技術(shù)服務,以及更細粒度、更具彈性、更加靈活的算力資源供給。二是推廣跨平臺技術(shù)應用,允許用戶將業(yè)務遷移至公有云,協(xié)助用戶使用公有云承載的系統(tǒng)和數(shù)據(jù),并保證遷移前后的功能一致與服務持續(xù),提升云服務可遷移性,推動公有云更加開放。
以應用為牽引,強化開放協(xié)同、提升服務效能
面向多元化的場景應用需求,豐富并優(yōu)化SaaS、MaaS(ModelasaService,模型即服務)等服務方式,整合生態(tài)資源,提供更多結(jié)合行業(yè)領(lǐng)域業(yè)務場景的應用服務。一方面,充分發(fā)揮行業(yè)龍頭企業(yè)在生態(tài)培育方面的引領(lǐng)作用,以開放兼容為原則,加快技術(shù)研發(fā)、產(chǎn)品開發(fā)、開源社區(qū)建設(shè)等,吸引更多懂業(yè)務、有數(shù)據(jù)的生態(tài)伙伴參與SaaS、MaaS層應用產(chǎn)品和服務開發(fā),形成開放協(xié)同的創(chuàng)新生態(tài)。另一方面,在普及IaaS服務的基礎(chǔ)上,推廣SaaS、MaaS等服務方式,結(jié)合行業(yè)數(shù)字化轉(zhuǎn)型需求,積極發(fā)展診斷咨詢、方案設(shè)計、遷移服務、數(shù)據(jù)應用服務、知識技能培訓、資源運維管理等上云應用服務,進一步建立用云安全理賠機制,打消用戶使用公有云服務的安全顧慮。
以統(tǒng)籌為原則,加強集約建設(shè)、推動高效發(fā)展
算力資源供給具有初始固定投入高、邊際成本遞減和邊際收益遞增的特點,通過規(guī)?;?jīng)營、集約化發(fā)展,能夠在更好滿足用戶算力資源彈性使用需求的同時,提高資源的使用率、降低平均使用成本。我國算力發(fā)展要強化增量資源布局,推動存量資源整合,提高算力資源綜合利用率。一是加強對算力資源布局和結(jié)構(gòu)優(yōu)化的引導,鼓勵適度超前、“質(zhì)”“量”同步規(guī)劃建設(shè)算力資源,支持以公有云服務方式提供算力服務,避免盲目上馬、無序建設(shè)造成重復投資和資源閑置。二是鼓勵市場主體通過集約化建設(shè)、規(guī)?;?jīng)營降低單位算力資源供給成本,提供更具性價比的算力資源服務和更有競爭力的產(chǎn)品服務方案。三是加強政企協(xié)同,通過構(gòu)建多元化運營生態(tài),調(diào)動社會各界積極性、發(fā)揮參與各方的資源和能力優(yōu)勢,推動區(qū)域內(nèi)規(guī)模小、分散運營的數(shù)據(jù)中心資源整合,提高存量資源的綜合利用率。
04、結(jié)語
在人工智能時代,從模型預訓練到模型部署再到推理應用,算力的需求呈指數(shù)級增長,公有云將成為破解算力資源緊張、算力成本高昂的關(guān)鍵抓手。本文系統(tǒng)梳理了人工智能時代公有云發(fā)展過程,分析了我國公有云在市場規(guī)模、服務結(jié)構(gòu)和資源利用等方面的發(fā)展趨勢和面臨的挑戰(zhàn)。本文研究認為應以需求為導向,完善產(chǎn)業(yè)生態(tài)、優(yōu)化服務供給;以應用為牽引,強化開放協(xié)同、提升服務效能;以統(tǒng)籌為原則,加強集約建設(shè)、推動高效發(fā)