作者:豐寧
“算力”相關(guān)產(chǎn)業(yè)近期持續(xù)火爆,智算中心的建設(shè),也正在遍地開花。
進(jìn)入2024年,就有武昌智算中心、中國移動(dòng)智算中心(青島)、華南數(shù)谷智算中心、鄭州人工智能計(jì)算中心、博大數(shù)據(jù)深圳前海智算中心等相繼開工或投產(chǎn)使用。據(jù)不完全統(tǒng)計(jì),目前全國正在建設(shè)或提出建設(shè)智算中心的城市已經(jīng)超過30個(gè),投資規(guī)模超百億元。
到底什么是智算中心?智算中心主要用來做什么?智算中心都有哪些特點(diǎn)?
?01何為智算中心?
根據(jù)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》定義,智算中心是指通過使用大規(guī)模異構(gòu)算力資源,包括通用算力(CPU)和智能算力(GPU、FPGA、ASIC等),主要為人工智能應(yīng)用(如人工智能深度學(xué)習(xí)模型開發(fā)、模型訓(xùn)練和模型推理等場景)提供所需算力、數(shù)據(jù)和算法的設(shè)施。
也可以說,智算中心是以人工智能計(jì)算任務(wù)為主的數(shù)據(jù)中心。數(shù)據(jù)中心通常包括三種類別,除了智算中心以外,另外兩種分別是以通用計(jì)算任務(wù)為主的通算中心,以及以超級(jí)計(jì)算任務(wù)為主的超算中心。
2023年是人工智能發(fā)展的重要轉(zhuǎn)折年,AIGC技術(shù)取得了突破性進(jìn)展,大模型訓(xùn)練、大模型應(yīng)用等新業(yè)務(wù)正在快速崛起,作為智能算力的載體,數(shù)據(jù)中心也已經(jīng)從數(shù)據(jù)機(jī)房、通算中心,發(fā)展到現(xiàn)階段的超算中心和智算中心。
?02、智算中心與通用數(shù)據(jù)中心有何不同?
智算中心,通常與云計(jì)算緊密相關(guān),強(qiáng)調(diào)資源控制和基礎(chǔ)設(shè)施管理的靈活性。
在云環(huán)境中,數(shù)據(jù)中心提供商負(fù)責(zé)硬件和某些軟件工具的維護(hù),而客戶則擁有數(shù)據(jù)。相比之下,傳統(tǒng)的本地?cái)?shù)據(jù)中心需要由企業(yè)自行管理和維護(hù)所有的數(shù)據(jù)資源。本質(zhì)的不同導(dǎo)致兩種模式在資本投入、資源部署以及安全性方面都有著極大的區(qū)別。
在資本投入上,智算中心客戶無需大量的硬件和軟件成本即可選擇適合自己的服務(wù)模式,如公有云、私有云或混合云;而傳統(tǒng)數(shù)據(jù)中心的客戶則需要投入大量資金來購買和維護(hù)自己所需的服務(wù)器、網(wǎng)絡(luò)和存儲(chǔ)設(shè)備。
在資源部署和安全性上,智算中心的客戶可隨時(shí)隨地通過互聯(lián)網(wǎng)遠(yuǎn)程訪問和管理自己的數(shù)據(jù)和應(yīng)用,與此同時(shí)還可以享受數(shù)據(jù)中心提供商提供的專業(yè)的安全保障,如防火墻、加密、備份和恢復(fù)等;而傳統(tǒng)數(shù)據(jù)中心的客戶受到辦公/指定地點(diǎn)的限制,且需自己進(jìn)行保護(hù)和管理數(shù)據(jù)。
智算中心,簡單來說就是專門服務(wù)于人工智能的數(shù)據(jù)計(jì)算中心,能夠?yàn)槿斯ぶ悄苡?jì)算提供所需的專用算力。
相比傳統(tǒng)數(shù)據(jù)中心,智算中心能滿足更具針對(duì)性的需求,以及更大的計(jì)算體量和更快的計(jì)算速度,為大模型訓(xùn)練推理、自動(dòng)駕駛、AIGC等各垂直行業(yè)場景提供AI算力。
?03、AI智算,需要什么樣的芯片?
在硬件的選擇上,智算中心與傳統(tǒng)數(shù)據(jù)中心的硬件架構(gòu)也有所不同。AI智算,需要什么樣的算力芯片?傳統(tǒng)數(shù)據(jù)中心的硬件架構(gòu)比較單一,主要包含服務(wù)器、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)設(shè)備。智算中心相比于此硬件架構(gòu)就會(huì)更加的靈活,不同的應(yīng)用場景也會(huì)選擇不同的計(jì)算節(jié)點(diǎn)。智算服務(wù)器是智算中心的主要算力硬件,通常采用“CPU+GPU”、“CPU+NPU”或“CPU+TPU”的異構(gòu)計(jì)算架構(gòu),以充分發(fā)揮不同算力芯片在性能、成本和能耗上的優(yōu)勢。GPU、NPU、TPU的內(nèi)核數(shù)量多,擅長并行計(jì)算。AI算法涉及到大量的簡單矩陣運(yùn)算任務(wù),需要強(qiáng)大的并行計(jì)算能力。?而傳統(tǒng)通用服務(wù)器則是以CPU作為主要芯片,用于支持如云計(jì)算和邊緣計(jì)算等基礎(chǔ)通用計(jì)算。AI智算,需要什么樣的存儲(chǔ)芯片?不止是算力芯片的不同,AI智算對(duì)存儲(chǔ)芯片也有著更高的要求。首先是用量。智算服務(wù)器的DRAM容量通常是普通服務(wù)器的8倍,NAND容量是普通服務(wù)器的3倍。甚至它的PCB電路板層數(shù)也明顯多于傳統(tǒng)服務(wù)器。這也意味著智算服務(wù)器需要布局更多的存儲(chǔ)芯片,以達(dá)到所需性能。隨著需求的水漲船高,一系列瓶頸問題也浮出水面。一方面,傳統(tǒng)馮諾依曼架構(gòu)要求數(shù)據(jù)必須加載到內(nèi)存中,導(dǎo)致數(shù)據(jù)處理效率低、延遲大、功耗高;另一方面,存儲(chǔ)器墻問題使得處理器性能的增長速度遠(yuǎn)快于內(nèi)存速度,造成大量數(shù)據(jù)需要在SSD和內(nèi)存間傳遞;此外,CPU掛載的SSD容量和帶寬限制也成為性能瓶頸。面對(duì)“存儲(chǔ)墻”、“功耗墻”等問題,傳統(tǒng)計(jì)算體系結(jié)構(gòu)中計(jì)算存儲(chǔ)架構(gòu)亟需升級(jí),將存儲(chǔ)與計(jì)算有機(jī)融合,以其巨大的能效比提升潛力,才能匹配智算時(shí)代巨量數(shù)據(jù)存儲(chǔ)需求。針對(duì)這一系列問題,存算一體芯片或許是一個(gè)不錯(cuò)的答案。除了芯片不同之外,為了充分發(fā)揮性能以及保障穩(wěn)定運(yùn)行,AI服務(wù)器在架構(gòu)、散熱、拓?fù)涞确矫嬉策M(jìn)行了強(qiáng)化設(shè)計(jì)。
?04、這些芯片,誰在布局?
算力芯片的布局情況在GPU方面,GPU擅長大規(guī)模并行計(jì)算。華為、天數(shù)智芯、摩爾線程、中科曙光、燧原科技、英偉達(dá)、英特爾、AMD等都推出有相關(guān)的芯片。
比如,華為推出了昇騰系列AI芯片昇騰910和昇騰310等,這些芯片專為AI訓(xùn)練和推理設(shè)計(jì),具有高性能和低功耗的特點(diǎn)。昇騰系列已廣泛應(yīng)用于數(shù)據(jù)中心、云服務(wù)和邊緣計(jì)算等領(lǐng)域,為智算中心提供強(qiáng)大的算力支持。英偉達(dá)推出了多款針對(duì)AI訓(xùn)練和推理的GPU產(chǎn)品,如A100、H100等。英特爾也推出了多款A(yù)I芯片產(chǎn)品,如Habana Labs的Gaudi系列芯片,旨在與英偉達(dá)競爭。AMD在AI芯片領(lǐng)域也有所布局,推出了MI系列GPU和APU產(chǎn)品。
在FPGA方面,CPU+FPGA則結(jié)合了靈活性與高效能,適應(yīng)算法快速變化。賽靈思、英特爾是市場主要參與者,相關(guān)產(chǎn)品有:賽靈思的VIRTEX、KINTEX、ARTIX、SPARTAN產(chǎn)品系列以及英特爾的Agilex產(chǎn)品系列;國內(nèi)主要廠商包括復(fù)旦微電、紫光國微和安路科技等。
在ASIC方面,CPU+ASIC提供高性能定制計(jì)算,適合特定需求。國外谷歌、英特爾、英偉達(dá)等巨頭相繼發(fā)布了ASIC芯片。國內(nèi)寒武紀(jì)、華為海思、地平線等廠商也都推出了深度神經(jīng)網(wǎng)絡(luò)加速的ASIC芯片。
在NPU方面,NPU是專門為人工智能和機(jī)器學(xué)習(xí)場景而設(shè)計(jì)的處理器。與CPU和GPU不同,NPU 在硬件結(jié)構(gòu)上進(jìn)行了針對(duì)性的優(yōu)化,專注于執(zhí)行神經(jīng)網(wǎng)絡(luò)推理等AI相關(guān)的計(jì)算任務(wù)。CPU的通用性和NPU的專用性相結(jié)合,使得整個(gè)系統(tǒng)能夠靈活應(yīng)對(duì)各種AI應(yīng)用場景,快速適應(yīng)算法和模型的變化。目前市場上已有眾多量產(chǎn)的NPU或搭載NPU模塊的芯片,其中知名的包括高通Hexagon NPU、華為的昇騰系列,值得注意的是,各大廠商在芯片計(jì)算核心的設(shè)計(jì)上都有著獨(dú)特的策略。
在TPU方面,TPU是谷歌專門為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的一款芯片,更加專注于處理大規(guī)模的深度學(xué)習(xí)任務(wù),具備更高的計(jì)算能力和更低的延遲。TPU也屬于一種ASIC芯片。
在DPU方面,DPU專門設(shè)計(jì)用于數(shù)據(jù)處理任務(wù),具有高度優(yōu)化的硬件結(jié)構(gòu),適用于特定領(lǐng)域的計(jì)算需求。不同于CPU 用于通用計(jì)算, GPU 用于加速計(jì)算, DPU是數(shù)據(jù)中心第三顆主力芯片。國際三大巨頭英偉達(dá)、博通、英特爾的DPU產(chǎn)品占據(jù)國內(nèi)大多數(shù)市場,賽靈思、Marvell、Pensando、Fungible、Amazon、Microsoft 等多家廠商在近 2-5 年內(nèi)也均有 DPU 或相似架構(gòu)產(chǎn)品生產(chǎn)。國內(nèi)廠商包括中科馭數(shù)、芯啟源、云豹智能、大禹智芯、阿里云等。
國產(chǎn)算力芯片走到哪一步了?
在2024北京移動(dòng)算力網(wǎng)絡(luò)大會(huì)上,中國移動(dòng)算力中心北京節(jié)點(diǎn)正式投入使用,標(biāo)志著我國智算中心建設(shè)進(jìn)入新階段。作為北京首個(gè)大規(guī)模訓(xùn)推一體智算中心,該項(xiàng)目占地約57000平方米,部署近4000張AI加速卡,AI芯片國產(chǎn)化率達(dá)33%,智能算力規(guī)模超1000P。
北京超級(jí)云計(jì)算中心運(yùn)營實(shí)體北京北龍超級(jí)云計(jì)算有限責(zé)任公司CTO甄亞楠近日表示,目前幫國產(chǎn)大模型“嫁接”國產(chǎn)芯片,只需15天左右就可以跑通。他認(rèn)為算力共享會(huì)是行業(yè)大趨勢,高端GPU算力資源需要各方努力。近年來,中國人工智能算力芯片的市場格局主要由英偉達(dá)主導(dǎo),其占據(jù)了80%以上的市場份額。甄亞楠表示,“我們也非常關(guān)注國產(chǎn)芯片的發(fā)展,據(jù)了解,國內(nèi)自研的大模型,甚至一些開源的大模型都在不斷往國產(chǎn)芯片上去做移植。
現(xiàn)在從芯片使用角度來講,有些模型已經(jīng)可以跑通運(yùn)行了,需要追趕的方面主要在類似GPU這種高性能?!薄罢麄€(gè)的國產(chǎn)化是分層級(jí)的,芯片屬于硬件這一層,除此之外還有軟件的生態(tài)。對(duì)于國產(chǎn)的芯片來講,不管是框架還是生態(tài),都需要有一定的培育周期?!闭鐏嗛粲?,最終的應(yīng)用方要給到國產(chǎn)芯片足夠的信心。
存儲(chǔ)芯片的布局情況
智算中心在存儲(chǔ)方面需要具備高容量、高可靠性、高可用性等特點(diǎn)。存儲(chǔ)設(shè)備通常采用高性能的硬盤或固態(tài)硬盤,并配備冗余的存儲(chǔ)架構(gòu),以確保數(shù)據(jù)的安全性和可訪問性。三星、美光、SK海力士等都有相關(guān)芯片都廣泛應(yīng)用于數(shù)據(jù)中心、云計(jì)算等領(lǐng)域,為智算中心提供高性能的存儲(chǔ)解決方案。
國內(nèi)廠商近年來在DRAM與NAND技術(shù)追趕上也實(shí)現(xiàn)了快速發(fā)展。除了傳統(tǒng)的存儲(chǔ)芯片外,智算中心還需要上文提到的新型存儲(chǔ)—存算一體芯片發(fā)揮更大的作用。從存算一體發(fā)展歷程來看,自2017年起,英偉達(dá)、微軟、三星等大廠提出了存算一體原型,同年國內(nèi)存算一體芯片企業(yè)開始涌現(xiàn)。
大廠們對(duì)存算一體架構(gòu)的需求是實(shí)用且落地快,而作為最接近工程落地的技術(shù),近存計(jì)算成為大廠們的首選。諸如特斯拉、三星等擁有豐富生態(tài)的大廠以及英特爾、IBM等傳統(tǒng)芯片大廠都在布局近存計(jì)算。
國內(nèi)初創(chuàng)企業(yè)則聚焦于無需考慮先進(jìn)制程技術(shù)的存內(nèi)計(jì)算。其中,知存科技、億鑄科技、九天睿芯等初創(chuàng)公司都在押注PIM、CIM等“存”與“算”更親密的存算一體技術(shù)路線。
億鑄科技、千芯科技等專注于大模型計(jì)算、自動(dòng)駕駛等AI大算力場景;閃易、新憶科技、蘋芯科技、知存科技等則專注于物聯(lián)網(wǎng)、可穿戴設(shè)備、智能家居等邊緣小算力場景。億鑄科技致力于用存算一體架構(gòu)設(shè)計(jì)AI大算力芯片,首次將憶阻器ReRAM和存算一體架構(gòu)相結(jié)合,通過全數(shù)字化的芯片設(shè)計(jì)思路,在當(dāng)前產(chǎn)業(yè)格局的基礎(chǔ)上,提供一條更具性價(jià)比、更高能效比、更大算力發(fā)展空間的AI大算力芯片換道發(fā)展新路徑。
千芯科技專注于面向人工智能和科學(xué)計(jì)算領(lǐng)域的大算力存算一體算力芯片與計(jì)算解決方案研發(fā),在2019年率先提出可重構(gòu)存算一體技術(shù)產(chǎn)品架構(gòu),在計(jì)算吞吐量方面相比傳統(tǒng)AI芯片能夠提升10-40倍。目前千芯科技可重構(gòu)存算一體芯片(原型)已在云計(jì)算、自動(dòng)駕駛感知、圖像分類、車牌識(shí)別等領(lǐng)域試用或落地;其大算力存算一體芯片產(chǎn)品原型也已在國內(nèi)率先通過互聯(lián)網(wǎng)大廠內(nèi)測。
知存科技的方案是重新設(shè)計(jì)存儲(chǔ)器,利用Flash閃存存儲(chǔ)單元的物理特性,對(duì)存儲(chǔ)陣列改造和重新設(shè)計(jì)外圍電路使其能夠容納更多的數(shù)據(jù),同時(shí)將算子也存儲(chǔ)到存儲(chǔ)器當(dāng)中,使得每個(gè)單元都能進(jìn)行模擬運(yùn)算并且能直接輸出運(yùn)算結(jié)果,以達(dá)到存算一體的目的。
?05、智算規(guī)模占比超30%,算力建設(shè)如火如荼
7月初,天府智算西南算力中心正式在四川成都投運(yùn)。據(jù)介紹,該中心將以算力支撐成都打造千億級(jí)人工智能核心產(chǎn)業(yè),賦能工業(yè)制造、自然科學(xué)、生物醫(yī)學(xué)、科研模擬實(shí)驗(yàn)等領(lǐng)域的人工智能創(chuàng)新。這不是個(gè)例。近一個(gè)月來,銀川綠色智算中心項(xiàng)目集中開工;北京移動(dòng)在京建成首個(gè)大規(guī)模訓(xùn)推一體智算中心,支撐高復(fù)雜度、高計(jì)算需求的百億、千億級(jí)大模型訓(xùn)練推理;鄭州人工智能計(jì)算中心開工建設(shè),總投資超16億元……
以智算中心為代表的數(shù)字新基建正加快建設(shè)落地。國家統(tǒng)計(jì)局7月15日發(fā)布的數(shù)據(jù)顯示,截至5月底,全國新建5G基站46萬個(gè);規(guī)劃具有高性能計(jì)算機(jī)集群的智算中心達(dá)10余個(gè),智能算力占算力總規(guī)模比重超過30%。據(jù)中國IDC圈不完全統(tǒng)計(jì),截止2024年5月23日,中國大陸共有智算中心283座,已覆蓋中國大陸所有省、自治區(qū)和直轄市。其中有投資額統(tǒng)計(jì)的智算中心項(xiàng)目140座,總投資額達(dá)到4364.34億元。有規(guī)劃算力規(guī)模統(tǒng)計(jì)的智算中心項(xiàng)目177座,總算力規(guī)模達(dá)到36.93萬PFlops。
這些“智算中心”標(biāo)準(zhǔn)不一、規(guī)模不同,算力規(guī)模一般在50P、100P、500P、1000P,有的甚至達(dá)到12000P以上,雖然AI浪潮給智算中心帶來了廣闊的發(fā)展前景,但供需錯(cuò)配、價(jià)格昂貴、重復(fù)建設(shè)等仍然是我國算力建設(shè)面臨的難題。
與此同時(shí),多地也紛紛出臺(tái)專項(xiàng)規(guī)劃,明確未來幾年建設(shè)目標(biāo),并在技術(shù)、應(yīng)用、資金等方面完善支持舉措。例如,江蘇發(fā)布省級(jí)算力基礎(chǔ)設(shè)施發(fā)展專項(xiàng)規(guī)劃,提出到2030年全省在用總算力超過50EFLOPS(EFLOPS是指每秒百億億次浮點(diǎn)運(yùn)算次數(shù)),智能算力占比超過45%;甘肅提出對(duì)算力網(wǎng)絡(luò)新型基礎(chǔ)設(shè)施在用地、市政配套設(shè)施建設(shè)、人才引進(jìn)、資金等方面給予政策支持。
“人工智能大模型等應(yīng)用爆發(fā)式發(fā)展帶動(dòng)了智能算力需求激增?!眹倚畔⒅行男畔⒒彤a(chǎn)業(yè)發(fā)展部主任單志廣表示,智能計(jì)算發(fā)展迅速,已經(jīng)成為我國算力結(jié)構(gòu)中增速最快的類型,其中大模型是智能算力的最大需求方,需求占比近六成。預(yù)計(jì)到2027年,中國智能算力規(guī)模年度復(fù)合增長率達(dá)33.9%。