自2022年11月ChatGPT發(fā)布以來,AIGC(生成式人工智能)成為各行各業(yè)密切關(guān)注的熱點,醫(yī)療、金融、交通、通信等領(lǐng)域的AI(人工智能)大模型層出不窮,輿論稱之為“千模大戰(zhàn)”,更有觀點認為“萬模大戰(zhàn)”將是AI產(chǎn)業(yè)化的必然趨勢。
新業(yè)務(wù)的算力之困
與傳統(tǒng)AI側(cè)重圖像分類、語言識別、故障診斷等分類預(yù)測型任務(wù)不同,AIGC更關(guān)注如何利用深度神經(jīng)網(wǎng)絡(luò)自動生成新的創(chuàng)作內(nèi)容,例如創(chuàng)作文章、圖像、音樂等。前者往往在小數(shù)據(jù)集下也能得到較高準確率的輸出,而后者則需要依賴大規(guī)模高質(zhì)量的訓(xùn)練數(shù)據(jù),海量數(shù)據(jù)的背后,是算力需求的爆發(fā)式增長。以目前業(yè)界分析較多的通用語言模型GPT-3為例,它擁有1750億個參數(shù),僅訓(xùn)練階段就需要10000張V100GPU持續(xù)運行約14.8天,整體算力消耗為625PFlops。而于今年3月發(fā)布的GPT-4不僅參數(shù)量增加了10余倍,其對應(yīng)的算力需求也大幅增加。盡管現(xiàn)階段仍有專家對ChatGPT類語言大模型的可用性提出質(zhì)疑,但要提升AIGC的性能,最直接且最可行的方案就是增加訓(xùn)練參數(shù)的數(shù)量,并投入更多的訓(xùn)練數(shù)據(jù)和算力資源,以期待“從量變到質(zhì)變”的轉(zhuǎn)變,進而滿足千行百業(yè)的需求。過去,規(guī)模效應(yīng)支撐算力水平持續(xù)提升,而伴隨大模型參數(shù)量越來越大,智能化程度越來越高,行業(yè)對存儲、網(wǎng)絡(luò)、計算等底層基礎(chǔ)硬件能力,以及擴展性、靈活性的要求也越來越高。算力建設(shè)不能局限于CPU、GPU、NPU等計算芯片的簡單堆疊,如何勘破計算芯片協(xié)同的難點與要點,運用多種技術(shù)構(gòu)建資源整合型的超級計算機以提升算力服務(wù)水平,是當(dāng)前產(chǎn)業(yè)重要的研究方向。
算力供給模式創(chuàng)新是破局關(guān)鍵
在新形勢下,依賴單體算力的傳統(tǒng)供給模式顯然已經(jīng)難以為繼,以AIGC為代表的新型業(yè)務(wù)在算力需求和算力應(yīng)用兩個維度存在明顯差異,這些差異點正是破解大模型時代算力困局的關(guān)鍵。首先,用戶量、訪問速度、訓(xùn)練模式等成為算力需求的影響因素,因此,在新業(yè)務(wù)執(zhí)行的不同階段,對算力的需求各有不同。以ChatGPT為例,其全生命周期包括數(shù)據(jù)獲取、模型訓(xùn)練、模型推理和迭代微調(diào)四個階段,對算力的消耗主要集中在模型的訓(xùn)練和推理兩個階段。在模型訓(xùn)練階段,大算力用于支持訓(xùn)練數(shù)據(jù)處理和海量參數(shù)優(yōu)化等數(shù)據(jù)密集型操作,對算力基礎(chǔ)設(shè)施的運行效率、性能穩(wěn)定性和彈性擴縮容能力有較高要求;在模型推理階段,大算力主要用于執(zhí)行前向傳播計算,對算力位置、交互實時性和準確性有較高要求。根據(jù)測算,模型訓(xùn)練所需的算力規(guī)模是模型推理的10倍左右,且其對資源的占用周期也遠超后者。其次,從業(yè)務(wù)運行周期看,傳統(tǒng)基于CPU的通用計算任務(wù)往往對應(yīng)著相對平滑的負載曲線,且對算力的需求在時間上呈現(xiàn)連續(xù)波動的趨勢;而新興業(yè)務(wù)的算力使用可能出現(xiàn)“短時高量”的特點,這意味著在特定時段,新興業(yè)務(wù)的算力需求會突然增加到高位水平,后續(xù)又會快速收斂到低值。針對算力需求的脈沖效應(yīng),“分時復(fù)用”是一種行之有效的資源配置策略。
具體而言,借助需求預(yù)測和任務(wù)調(diào)度的方法,在高峰期給新興業(yè)務(wù)分配更多算力資源,以滿足其高算力需求;而在低峰期則將多余的算力資源重新分配給其他業(yè)務(wù)或用戶,以提高整體的算力使用效率。從上述分析可知,為適配新業(yè)務(wù)的發(fā)展節(jié)奏,算力資源供給模式亟需從以前的剛性化、“孤島”式、資源式,向彈性化、網(wǎng)絡(luò)化和任務(wù)式演進。彈性化是資源提供方根據(jù)工作負荷進行算力擴展和收縮,當(dāng)需求增加時,動態(tài)增加算力資源以滿足更高的計算要求;當(dāng)需求減少時,適時釋放空閑算力資源以消納更多用戶。網(wǎng)絡(luò)化是采用網(wǎng)絡(luò)手段組織和管理算力資源,將分散在不同地理位置和組織機構(gòu)間的計算、存儲資源進行有效調(diào)配,形成泛在融合的算力供給網(wǎng)絡(luò)。任務(wù)式是新型算力供給體系的重要特征,算力提供方將自有算力資源以任務(wù)的形式發(fā)布到算力交易中心,供需雙方可根據(jù)業(yè)務(wù)特點進行匹配和一鍵訂購。同為社會高質(zhì)量發(fā)展的重要驅(qū)動力,算力和電力有諸多相似之處,例如電力的調(diào)度需要電網(wǎng)作支撐,而算力的調(diào)度同樣需要將分布式的算力中心匯聚成“一張網(wǎng)”,因此業(yè)內(nèi)可以借鑒電力行業(yè)的發(fā)展經(jīng)驗來構(gòu)建新型算力供給體系。基于多級、多方、多樣的算力資源新型供給體系如圖1所示。
圖1??基于多級、多方、多樣的算力資源新型供給體系
構(gòu)建算力供給體系的關(guān)鍵技術(shù)
在現(xiàn)有多級、多方、多樣算力并存的情況下,將算力供應(yīng)與算力調(diào)配充分解耦,是推動算力資源從高門檻應(yīng)用到融入千行百業(yè)、進入普惠共享新階段的必經(jīng)之路,也是構(gòu)建創(chuàng)新型算力供給體系的重要措施。在推進算力提供方、運營方、使用方等供需各環(huán)節(jié)解耦的過程中,算力度量、算力路由感知、算網(wǎng)編排、算力交易、確定性網(wǎng)絡(luò)等技術(shù)得到廣泛關(guān)注。
算力度量技術(shù)
旨在量化評估異構(gòu)算力資源以及多樣化業(yè)務(wù)需求,通過建立一致的描述語言,在賦能算力流通屬性的同時,為算力的感知、管控、服務(wù)提供基礎(chǔ)和標準。將不同芯片提供的算力通過度量函數(shù)映射到統(tǒng)一量綱,用戶多樣化的需求映射為實際所需的算網(wǎng)資源,從而實現(xiàn)按需服務(wù),對不同算法的算力需求進行度量,有效調(diào)用算法所需的算力。當(dāng)前業(yè)界衡量算力大小通常采用的單位是Flops,即每秒浮點運算的次數(shù),而在現(xiàn)有云計算方案中,則以虛機、容器等粗粒度的衡量單位為主。
算力路由感知技術(shù)
是實現(xiàn)算力網(wǎng)絡(luò)化的核心功能,能夠支持對網(wǎng)絡(luò)、計算、存儲等多維度資源、服務(wù)的感知與通告,從而實現(xiàn)網(wǎng)絡(luò)和算力資源的調(diào)度優(yōu)化。目前的主流方案是將云計算領(lǐng)域的算力因子等概念引入網(wǎng)絡(luò)領(lǐng)域,提出綜合算力因子和網(wǎng)絡(luò)因子的多重考量方案,再基于BGP、IGP等路由協(xié)議報文進行擴展,通過新增路徑屬性來承載算力信息和網(wǎng)絡(luò)信息。
算網(wǎng)編排技術(shù)
是根據(jù)網(wǎng)絡(luò)感知動態(tài)數(shù)據(jù),實現(xiàn)算力解構(gòu)調(diào)度、網(wǎng)絡(luò)智能選路、資源自動調(diào)度開通以及實時端到端透明可視。算網(wǎng)編排將網(wǎng)絡(luò)、算力、數(shù)據(jù)、服務(wù)、應(yīng)用、安全等多要素融合,實現(xiàn)從需求、流程、產(chǎn)品到運維、監(jiān)控、自服務(wù)等多場景的跨云、跨網(wǎng)、跨域、跨用戶編排。
算力交易技術(shù)
是指將算力提供方的各類算力資源,按需提供給算力消費方,包括對算力消費方的資源需求解析,提供可視化交易視圖、訂單管理等功能。確定性網(wǎng)絡(luò)技術(shù)不同于傳統(tǒng)IP網(wǎng)絡(luò)“盡力而為”的轉(zhuǎn)發(fā)方式,可為網(wǎng)絡(luò)提供“準時、準確”的可靠性數(shù)據(jù)傳輸服務(wù),是構(gòu)建下一代網(wǎng)絡(luò)基礎(chǔ)設(shè)施體系、提升數(shù)據(jù)傳輸服務(wù)質(zhì)量的關(guān)鍵技術(shù)之一。
結(jié)語
未來,隨著算力需求的逐步增長和計算機硬件的不斷發(fā)展,大模型的規(guī)模和性能將持續(xù)提升。高性能的計算環(huán)境為大模型的訓(xùn)練和應(yīng)用帶來諸多優(yōu)勢,再配以彈性化、網(wǎng)絡(luò)化、任務(wù)式的算力供給體系,可以充分盤活算力資源的每一個浮點能力,加速新業(yè)務(wù)開拓數(shù)字經(jīng)濟新“藍?!?。