作者:豐寧
隨著ChatGPT的出圈,大家可以明顯感受到全社會(huì)對(duì)于生成式人工智能技術(shù)的廣泛關(guān)注,隨著大模型的數(shù)量和模型參數(shù)量不斷激增,對(duì)算力的需求也越來(lái)越高。
根據(jù)《中國(guó)算力發(fā)展指數(shù)白皮書(shū)》中的定義,算力是設(shè)備通過(guò)處理數(shù)據(jù),實(shí)現(xiàn)特定結(jié)果輸出的計(jì)算能力。算力實(shí)現(xiàn)的核心是CPU、GPU等各類(lèi)計(jì)算芯片,并由計(jì)算機(jī)、服務(wù)器和各類(lèi)智能終端等承載,海量數(shù)據(jù)處理和各種數(shù)字化應(yīng)用都離不開(kāi)算力的加工和計(jì)算。
那么,不同的算力芯片分別適用于何種應(yīng)用場(chǎng)景,不同的算力芯片又有哪些區(qū)別?
?01、不同場(chǎng)景需要何種算力芯片
小至耳機(jī)、手機(jī)、PC,大到汽車(chē)、互聯(lián)網(wǎng)、人工智能、數(shù)據(jù)中心、超級(jí)計(jì)算機(jī)、航天火箭等,“算力”都在其中發(fā)揮著核心作用,而不同的算力場(chǎng)景,對(duì)芯片的要求也各不同。
數(shù)據(jù)中心作為數(shù)字時(shí)代的核心基礎(chǔ)設(shè)施,承載著大量的數(shù)據(jù)處理、存儲(chǔ)和傳輸任務(wù)。因此,它們需要強(qiáng)大的算力來(lái)應(yīng)對(duì)各種復(fù)雜的計(jì)算需求。數(shù)據(jù)中心和超算需要高于1000TOPS的高算力芯片。當(dāng)前,超算中心算力已經(jīng)進(jìn)入E級(jí)算力(百億億次運(yùn)算每秒)時(shí)代,并正在向Z(千E)級(jí)算力發(fā)展。
數(shù)據(jù)中心對(duì)于芯片的低功耗、低成本、可靠性以及通用性的要求都極高。智能自動(dòng)駕駛涉及人機(jī)交互、視覺(jué)處理、智能決策等眾多方面,車(chē)載傳感器(激光雷達(dá)、攝像頭、毫米波雷達(dá)等)的不斷增加,數(shù)據(jù)處理的實(shí)時(shí)性、復(fù)雜性和準(zhǔn)確性要求不斷提高,都對(duì)車(chē)載算力提出了更高的要求。
通常,業(yè)內(nèi)認(rèn)為實(shí)現(xiàn)L2級(jí)自動(dòng)輔助駕駛需要的算力在10TOPS以下,L3級(jí)需要30~60TOPS,L4級(jí)需要超過(guò)300TOPS,L5級(jí)需要超過(guò)1000TOPS,甚至4000+TOPS。所以自動(dòng)駕駛領(lǐng)域的車(chē)載算力是遠(yuǎn)遠(yuǎn)大于生活中常見(jiàn)的手機(jī)、電腦的計(jì)算能力。比如蔚來(lái)ET5的處理器算力達(dá)1016TOPS、小鵬P7的處理器算力達(dá)508TOPS。
在智能駕駛中,安全至關(guān)重要,因此該場(chǎng)景對(duì)算力芯片的可靠性有著極高的要求,對(duì)于芯片通用性的要求也較高,對(duì)于功耗和成本的要求就相對(duì)沒(méi)有那么苛刻。為了應(yīng)對(duì)當(dāng)前視頻處理、人臉識(shí)別以及異常檢測(cè)等復(fù)雜任務(wù)的挑戰(zhàn),同時(shí)確保系統(tǒng)在未來(lái)技術(shù)升級(jí)和拓展時(shí)擁有充足的計(jì)算資源。
智能安防系統(tǒng)需要大約4-20TOPS的算力,這一數(shù)值雖然相較數(shù)據(jù)中心要小得多,但是也足以保障智能安防系統(tǒng)的高效穩(wěn)定運(yùn)作。隨著AI安防進(jìn)入下半場(chǎng),算力的重要性愈發(fā)凸顯,這一數(shù)值也在不斷上漲。
智能安防對(duì)低成本和可靠性的需求比較高,功耗和通用性的要求則相對(duì)中等。在智能移動(dòng)終端中,可穿戴設(shè)備等小型產(chǎn)品對(duì)算力的需求相對(duì)不高,但智能手機(jī)、筆記本電腦等產(chǎn)品對(duì)算力的需求正在大幅提升。比如,前幾年的iPhone12搭載的A14芯片算力約為11TOPS,小米10手機(jī)所配備的驍龍865芯片算力則為15TOPS。
然而,隨著AI技術(shù)在智能手機(jī)中的日益集成和普及,驍龍888的算力已達(dá)到26TOPS,之后的8Gen1、8Gen2等芯片更是算力更是做了顯著提升。智能移動(dòng)終端也是一個(gè)對(duì)低功耗和低成本有著高要求的應(yīng)用場(chǎng)景,對(duì)可靠性的要求相對(duì)較高,對(duì)通用性則沒(méi)有太多的限制。
?02、主流的算力芯片及其特征
當(dāng)下的基礎(chǔ)算力主要由基于CPU芯片的服務(wù)器提供,面向基礎(chǔ)通用計(jì)算。智能算力主要基于GPU、FPGA、ASIC等芯片的加速計(jì)算平臺(tái)提供,面向人工智能計(jì)算。高性能計(jì)算算力主要基于融合CPU芯片和GPU芯片打造的計(jì)算集群提供,主要面向科學(xué)工程計(jì)算等應(yīng)用場(chǎng)景。
CPU是傳統(tǒng)通用計(jì)算之王,包含運(yùn)算器、控制器、存儲(chǔ)器等主要部分。數(shù)據(jù)在存儲(chǔ)器中存儲(chǔ),控制器從存儲(chǔ)器中獲取數(shù)據(jù)并交給運(yùn)算器進(jìn)行運(yùn)算,運(yùn)算完成后再將結(jié)果返回存儲(chǔ)器。CPU的特點(diǎn)是通用性強(qiáng),可處理各種類(lèi)型的計(jì)算任務(wù),但其計(jì)算效率不及專(zhuān)門(mén)針對(duì)特定任務(wù)設(shè)計(jì)的芯片。
GPU最初用于加速圖形渲染,也被稱(chēng)為圖形處理的利器。近年來(lái),GPU在深度學(xué)習(xí)等領(lǐng)域表現(xiàn)出色,被廣泛應(yīng)用于人工智能計(jì)算。GPU的特點(diǎn)是具有大量并行計(jì)算單元,可同時(shí)處理大量數(shù)據(jù),使其在并行計(jì)算任務(wù)中具有很高的效率。但GPU的通用性不及CPU,僅適用于特定類(lèi)型計(jì)算任務(wù)。
ASIC是一種專(zhuān)為特定任務(wù)而設(shè)計(jì)的芯片。它通過(guò)硬件實(shí)現(xiàn)算法,可在特定任務(wù)中實(shí)現(xiàn)極高的計(jì)算效率和能效。ASIC的特點(diǎn)是針對(duì)性強(qiáng),僅適用于特定任務(wù),但其計(jì)算效率和能效遠(yuǎn)超CPU和GPU,適用于規(guī)模大或成熟度高的產(chǎn)品。FPGA利用門(mén)電路直接運(yùn)算、速度較快。相比于GPU,F(xiàn)PGA具有更高的處理速度和更低的能耗,但相比相同工藝條件下的ASIC,F(xiàn)PGA仍有不及,不過(guò)FPGA可以進(jìn)行編程,相比ASIC也更加靈活。
FPGA適用于快速迭代或小批量產(chǎn)品,在AI領(lǐng)域,F(xiàn)PGA芯片可作為加速卡加速AI算法的運(yùn)算速度。GPGPU即通用圖形處理器,其中第一個(gè)“GP”通用目的,而第二個(gè)“GP”則表示圖形處理,主要目標(biāo)是利用GPU的并行計(jì)算能力來(lái)加速通用計(jì)算任務(wù)。可以通俗的將GPGPU理解為一個(gè)輔助CPU進(jìn)行非圖形相關(guān)程序的運(yùn)算的工具。適用于大規(guī)模并行計(jì)算場(chǎng)景,比如科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等場(chǎng)景。
?03、GPU是AI的最優(yōu)解,但未必是唯一解
在ChatGPT引發(fā)的人工智能熱潮下,最受歡迎的莫過(guò)于GPU,為了發(fā)展AI,全球領(lǐng)先的科技巨頭都在爭(zhēng)相囤積英偉達(dá)的GPU。GPU因何受到AI時(shí)代諸多廠商的青睞?原因很簡(jiǎn)單,因?yàn)锳I計(jì)算和圖形計(jì)算類(lèi)似,包含大量的高強(qiáng)度并行計(jì)算任務(wù)。具體解釋為,訓(xùn)練和推理是AI大模型的基石。
在訓(xùn)練環(huán)節(jié),通過(guò)輸入大量的數(shù)據(jù),訓(xùn)練出一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。在推理環(huán)節(jié),利用訓(xùn)練好的模型,使用大量數(shù)據(jù)推理出各種結(jié)論。而神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理過(guò)程涉及一系列具體的算法,如矩陣相乘、卷積、循環(huán)層處理以及梯度運(yùn)算等。這些算法通常可以高度并行化,也就是說(shuō),它們可以被分解為大量可以同時(shí)執(zhí)行的小任務(wù)。而GPU擁有大量的并行處理單元,可以快速地執(zhí)行深度學(xué)習(xí)中需要的矩陣運(yùn)算,從而加速模型的訓(xùn)練和推理。
目前,大部分企業(yè)的AI訓(xùn)練,采用的都是英偉達(dá)的GPU集群。如果進(jìn)行合理優(yōu)化,一塊GPU卡,可以提供相當(dāng)于數(shù)十臺(tái)甚至上百臺(tái)CPU服務(wù)器的算力。AMD、英特爾等企業(yè)也正在積極提升其技術(shù)實(shí)力,爭(zhēng)取市場(chǎng)份額。中國(guó)頭部廠商包括景嘉微、龍芯中科、海光信息、寒武紀(jì)、芯原股份等。可以看到,在AI領(lǐng)域,GPU一騎絕塵,正如英偉達(dá)將自身定義為人工智能領(lǐng)導(dǎo)者一樣,可以看到業(yè)內(nèi)目前幾乎所有關(guān)于人工智能的應(yīng)用背后都離不開(kāi)GPU的身影。
這時(shí)候可能會(huì)有人發(fā)問(wèn),在AI盛行的當(dāng)下,單憑GPU就足夠了嗎?GPU是否會(huì)獨(dú)占未來(lái)AI市場(chǎng)的鰲頭,成為無(wú)可爭(zhēng)議的寵兒?筆者認(rèn)為,非也。GPU固然是當(dāng)下的最優(yōu)解,但未必是唯一解。
CPU可以發(fā)揮更多的作用
GPU雖然目前在AI領(lǐng)域占據(jù)了主導(dǎo)地位,但是它也面臨著一些挑戰(zhàn)和局限。比如說(shuō),GPU的供應(yīng)鏈問(wèn)題導(dǎo)致了價(jià)格上漲和供應(yīng)不足,這對(duì)于AI開(kāi)發(fā)者和用戶(hù)來(lái)說(shuō)都是一個(gè)負(fù)擔(dān)。而CPU則有著更多的競(jìng)爭(zhēng)者和合作伙伴,可以促進(jìn)技術(shù)的進(jìn)步和降低成本。
而且,CPU也有著更多的優(yōu)化技術(shù)和創(chuàng)新方向,可以讓CPU在AI領(lǐng)域發(fā)揮出更大的作用。一些更為精簡(jiǎn)或小巧的模型,在傳統(tǒng)CPU上同樣能夠展現(xiàn)出卓越的運(yùn)行效率,而且往往更加經(jīng)濟(jì)實(shí)惠、節(jié)能環(huán)保。這證明了在選擇硬件時(shí),需根據(jù)具體應(yīng)用場(chǎng)景和模型復(fù)雜度來(lái)權(quán)衡不同處理器的優(yōu)勢(shì)。
比如HuggingFace公司的首席AI布道者JulienSimon演示的一個(gè)基于IntelXeon處理器的語(yǔ)言模型Q8-Chat。這個(gè)模型有70億個(gè)參數(shù),可以在一個(gè)32核心的CPU上運(yùn)行,并提供一個(gè)類(lèi)似于OpenAIChatGPT的聊天界面,可以快速地回答用戶(hù)的問(wèn)題,并且速度比ChatGPT快得多。除了運(yùn)行超大規(guī)模的語(yǔ)言模型,CPU還可以運(yùn)行更小更高效的語(yǔ)言模型。
這些語(yǔ)言模型通過(guò)一些創(chuàng)新的技術(shù),可以大幅減少計(jì)算量和內(nèi)存占用,從而適應(yīng)CPU的特點(diǎn)。這也意味著CPU在AI領(lǐng)域并沒(méi)有被完全邊緣化,而是有著不容忽視的優(yōu)勢(shì)和潛力。全球CPU市場(chǎng)由英特爾、AMD雙寡頭壟斷,合計(jì)市場(chǎng)份額超過(guò)95%。目前,龍芯、申威、海光、兆芯、鯤鵬、飛騰六大國(guó)產(chǎn)CPU廠商快速崛起,加速推動(dòng)了國(guó)產(chǎn)CPU的發(fā)展進(jìn)程。
CPU+FPGA、CPU+ASIC也富有潛力
不僅如此,由于AI加速服務(wù)器異構(gòu)的特點(diǎn),市場(chǎng)上除了CPU+GPU的組合方式之外,還有其它多種多樣的架構(gòu),例如:CPU+FPGA、CPU+ASIC、CPU+多種加速卡。技術(shù)的變革是迅速的,未來(lái)確有可能出現(xiàn)更加高效、更加適合AI計(jì)算的新技術(shù)。
CPU+FPGA、CPU+ASIC便是未來(lái)的可能之一。CPU擅長(zhǎng)邏輯控制和串行處理,而FPGA則具有并行處理能力和硬件加速特性。通過(guò)結(jié)合兩者,可以顯著提升系統(tǒng)的整體性能,特別是在處理復(fù)雜任務(wù)和大規(guī)模數(shù)據(jù)時(shí)。FPGA的可編程性使得其可以根據(jù)具體應(yīng)用場(chǎng)景進(jìn)行靈活配置和定制。
這意味著CPU+FPGA架構(gòu)可以適應(yīng)各種不同的需求,從通用計(jì)算到特定應(yīng)用的加速,都可以通過(guò)調(diào)整FPGA的配置來(lái)實(shí)現(xiàn)。而ASIC是專(zhuān)門(mén)為特定應(yīng)用設(shè)計(jì)的集成電路,因此它在性能和功耗上通常都經(jīng)過(guò)了高度優(yōu)化。與CPU結(jié)合使用時(shí),可以確保系統(tǒng)在處理特定任務(wù)時(shí)具有出色的性能和效率。此外,ASIC的設(shè)計(jì)是固定的,一旦制造完成,其功能就不會(huì)改變。這使得ASIC在需要長(zhǎng)時(shí)間穩(wěn)定運(yùn)行和高可靠性的場(chǎng)景中表現(xiàn)出色。全球FPGA芯片市場(chǎng)主要由賽靈思、英特爾雙寡頭壟斷,合計(jì)占有率高達(dá)87%。
國(guó)內(nèi)主要廠商包括復(fù)旦微電、紫光國(guó)微和安路科技。國(guó)外谷歌、英特爾、英偉達(dá)等巨頭相繼發(fā)布了ASIC芯片。國(guó)內(nèi)寒武紀(jì)、華為海思、地平線等廠商也都推出了深度神經(jīng)網(wǎng)絡(luò)加速的ASIC芯片。GPGPU能使用更高級(jí)別的編程語(yǔ)言,在性能和通用性上更加強(qiáng)大,也是目前AI加速服務(wù)器的主流選擇之一。GPGPUDE核心廠商主要包括NVIDIA、AMD、壁仞科技、沐曦和天數(shù)智芯等。
?04、中國(guó)算力,規(guī)模如何?
根據(jù)IDC的預(yù)測(cè),未來(lái)3年全球新增的數(shù)據(jù)量將超過(guò)過(guò)去30年的總和,到2024年,全球數(shù)據(jù)總量將以26%的年均復(fù)合增長(zhǎng)率增長(zhǎng)到142.6ZB。這些將使得數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)傳輸、數(shù)據(jù)處理的需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng),不斷提升對(duì)算力資源的需求。
另外,面向人工智能等場(chǎng)景,大規(guī)模的模型訓(xùn)練和推理也需要強(qiáng)大的高性能算力供應(yīng)。近年來(lái),中國(guó)算力基礎(chǔ)設(shè)施建設(shè)取得顯著成效。到2023年底,全國(guó)在用數(shù)據(jù)中心機(jī)架總規(guī)模超過(guò)810萬(wàn)標(biāo)準(zhǔn)機(jī)架,算力總規(guī)模達(dá)到230百億億次/秒(EFLOPS),算力正加速向政務(wù)、工業(yè)、交通、醫(yī)療等各行業(yè)各領(lǐng)域滲透。同時(shí),在“東數(shù)西算”工程與全國(guó)一體化算力網(wǎng)的布局下,中國(guó)算力網(wǎng)——智算網(wǎng)絡(luò)一期已經(jīng)上線,全國(guó)算力“一張網(wǎng)”已具雛形。
政策面,中國(guó)陸續(xù)出臺(tái)《全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》、《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》、《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》等一系列文件推動(dòng)算力基礎(chǔ)設(shè)施建設(shè)。
此外,國(guó)家推動(dòng)多地智算中心建設(shè),由東向西逐步擴(kuò)展。當(dāng)前中國(guó)超過(guò)30個(gè)城市正在建設(shè)或提出建設(shè)智算中心,據(jù)科技部出臺(tái)政策要求,“混合部署的公共算力平臺(tái)中,自主研發(fā)芯片所提供的算力標(biāo)稱(chēng)值占比不低于60%,并優(yōu)先使用國(guó)產(chǎn)開(kāi)發(fā)框架,使用率不低于60%”,國(guó)產(chǎn)AI芯片滲透率有望快速提升。據(jù)IDC數(shù)據(jù),中國(guó)智能算力未來(lái)將快速增長(zhǎng),2021年到2026年期間中國(guó)智能算力規(guī)模年復(fù)合增長(zhǎng)率達(dá)52.3%。