史上用戶(hù)增速最快消費(fèi)級(jí)應(yīng)用ChatGPT,自去年11月底發(fā)布以來(lái),讓全球?yàn)槠淇駳g,各方勢(shì)力仍持續(xù)為此“上火”:用戶(hù)急著試探ChatGPT是否真的有那么聰明,每天有超過(guò)2億的人都在瘋狂拋出各式各樣的問(wèn)題“刁難”ChatGPT,并展現(xiàn)自己的“調(diào)教”成果;
(ChatGPT每日點(diǎn)擊訪問(wèn)量統(tǒng)計(jì) 圖源:國(guó)盛證券研究所)
國(guó)內(nèi)互聯(lián)網(wǎng)大廠們基于要“活下去”的心愿和講更動(dòng)聽(tīng)的AI故事,急著與ChatGPT扯上關(guān)系:一時(shí)間百度、騰訊、阿里等紛紛拿出相關(guān)技術(shù)布局以及底層設(shè)施儲(chǔ)備,為中國(guó)的ChatGPT奮力一戰(zhàn);
近3個(gè)月過(guò)去,ChatGPT熱度絲毫未減,政府也開(kāi)始“急了”:
2月24日,東數(shù)西算一體化算力服務(wù)平臺(tái)在寧夏銀川正式上線發(fā)布。據(jù)悉,東數(shù)西算一體化算力服務(wù)平臺(tái)將瞄準(zhǔn)目前最稀缺、剛需迫切的ChatGPT運(yùn)算能力,以支撐中國(guó)人工智能運(yùn)算平臺(tái)急需的大算力服務(wù)。
目前,該平臺(tái)已吸引曙光、中國(guó)電子云、天翼云、阿里云、華為、中興等大算力頭部企業(yè),以及國(guó)家信息中心、北京大數(shù)據(jù)研究院等中國(guó)主要大數(shù)據(jù)機(jī)構(gòu)入駐。
新概念才火熱三個(gè)月,便讓政府下場(chǎng)彌補(bǔ)缺口,此等盛況實(shí)屬難見(jiàn)。
各方勢(shì)力蜂擁而至,足以見(jiàn)得,目前的算力怕是填補(bǔ)不了ChatGPT們的肚子,眾志成城,才能打贏ChatGPT算力攻堅(jiān)戰(zhàn)。
本文試圖探究,ChatGPT到底需要多大的算力?升級(jí)算力的路子是什么?
ChatGPT,企圖榨干算力
通用AI時(shí)代來(lái)臨,人類(lèi)對(duì)于算力的需求正逐漸失控。
伴隨著摩爾定律失效,大模型時(shí)代來(lái)臨,算力不再“淡定”,每5-6個(gè)月就要翻倍,以困獸沖破牢籠之勢(shì)飛速增長(zhǎng):
(模型發(fā)布時(shí)間及算力變化 圖源:浙商證券)
2018年,谷歌帶著3億參數(shù)BERT模型,闖進(jìn)大眾視野,開(kāi)啟大規(guī)模預(yù)訓(xùn)練模型時(shí)代;在這之后,OpenAI、英偉達(dá)、微軟先后推出15億參數(shù)的GPT-2、83億參數(shù)的Megatron-LM、170億參數(shù)的圖靈Turing-NLG,各個(gè)大廠暗自較勁,參數(shù)規(guī)模從十億級(jí)別競(jìng)爭(zhēng)到了百億級(jí)別。
2020年6月,OpenAI又將算力“戰(zhàn)場(chǎng)”拔高了一個(gè)層級(jí):推出1750億參數(shù)的GPT-3,把參數(shù)規(guī)模提高到千億級(jí)別。隨后一山更比一山高:微軟和英偉達(dá)在2020年10月聯(lián)手發(fā)布了5300億參數(shù)的Megatron-Turing自然語(yǔ)言生成模型(MT-NLG)。
2021年,國(guó)內(nèi)迎來(lái)預(yù)訓(xùn)練大模型元年。在這一年里,華為、百度、阿里等中國(guó)企業(yè)開(kāi)始發(fā)力:
- 華為云聯(lián)合北京大學(xué)發(fā)布盤(pán)古α超大規(guī)模預(yù)訓(xùn)練模型,參數(shù)規(guī)模達(dá)2000億;
- 百度推出ERNIE 3.0 Titan模型,參數(shù)規(guī)模達(dá)2600億;
- 阿里達(dá)摩院的M6模型參數(shù)達(dá)到10萬(wàn)億,又將大模型參數(shù)帶到新的高度
······
在這之中表現(xiàn)最為亮眼的,莫過(guò)于從GPT-3迭代而來(lái)的ChatGPT,2022年底一出世就博得全球目光,無(wú)論是在模型預(yù)訓(xùn)練階段,還是模型被訪問(wèn)階段,ChatGPT都對(duì)算力提出“史無(wú)前例”的要求。
在模型預(yù)訓(xùn)練階段,從GPT-1到GPT-3 ,從GPT-3 Small到GPT-3 175B,對(duì)算力的需求呈指數(shù)型增長(zhǎng)。
在大模型的框架下,每一代 GPT 模型的參數(shù)量均高速擴(kuò)張,參數(shù)量從GPT-1的1.17億個(gè),翻了1029倍至GPT-3 的1750 億個(gè);
具體來(lái)看,在GPT-3歷代模型中,短短2年,參數(shù)量便從GPT-3 Small的1.25億個(gè),翻了1399倍至GPT-3的1750億個(gè),未來(lái)GPT-4還要翻倍:根據(jù) Altman 的介紹,預(yù)計(jì)GPT-4的參數(shù)將會(huì)達(dá)到2800億個(gè)。
與此同時(shí),在模型被訪問(wèn)階段,ChatGPT對(duì)算力同樣有著“狂熱”需求:
根據(jù)Similarweb數(shù)據(jù),ChatGPT官網(wǎng)在2023年1月27日-2月3日一周內(nèi)吸引的每日訪客數(shù)量高達(dá)2500萬(wàn)。假設(shè)以目前的穩(wěn)定狀態(tài),每日每用戶(hù)提問(wèn)約10個(gè)問(wèn)題,則每日約有2.5億次咨詢(xún)量。
如果想要“消化”掉這2.5億次咨詢(xún)量,根據(jù)國(guó)盛證券測(cè)算,需要大量的A100 GPU芯片“連夜趕工”:
假設(shè)每個(gè)問(wèn)題平均30字,單個(gè)字在A100 GPU上約消耗350ms,則一天共需消耗729,167個(gè)A100 GPU運(yùn)行小時(shí),對(duì)應(yīng)每天需要729,167/24=30,382片英偉達(dá)A100 GPU。
也就是說(shuō),目前每天2.5億次咨詢(xún)量,需要30,382片英偉達(dá)A100 GPU同時(shí)計(jì)算,才能把ChatGPT“喂飽”,以下是ChatGPT部分耗費(fèi)(電費(fèi)以0.08美元/kwh計(jì)算):
而以上圖表所顯示的,僅僅是2.5億咨詢(xún)量需求下,使用英偉達(dá)A100 GPU相關(guān)設(shè)備,ChatGPT所需要的算力成本。
其背后對(duì)能源的消耗,更是“觸目驚心”。
環(huán)球零碳研究中心曾粗略合計(jì)了ChatGPT全生命周期的碳足跡:自2022年11月30日運(yùn)行以來(lái),其制造設(shè)備的碳排放量超過(guò)了33.41噸,模型訓(xùn)練碳排放超過(guò)552噸,運(yùn)行60天碳排放約為229.2噸。
也就是說(shuō)上線兩個(gè)月的ChatGPT,全過(guò)程碳排放超過(guò)了814.61噸,而這,相當(dāng)于186個(gè)丹麥家庭每年消耗的能量。
現(xiàn)階段ChatGPT背后的大模型仍在迭代,每日訪問(wèn)量仍在遞增,未來(lái)還會(huì)有更多的ChatGPT們涌現(xiàn)。彼時(shí),算力以及其背后的功耗還能顧得過(guò)來(lái)嗎?
對(duì)此,蘇媽表示了擔(dān)憂(yōu):在ISSCC 2023上,蘇媽表示根據(jù)目前計(jì)算效率每?jī)赡晏嵘?.2倍的規(guī)律,預(yù)計(jì)到2035年,如果想要算力達(dá)到十萬(wàn)億億級(jí),則需要的功率可達(dá)500MW,相當(dāng)于半個(gè)核電站能產(chǎn)生的功率,“這是極為離譜、不切合實(shí)際的”。
(2010-2040功率發(fā)展情況 圖源:2023 IEEE international Solid-State Circuits Conference)
為了達(dá)到這樣的效果,我們的計(jì)算效率起碼要每?jī)赡晏嵘?.2倍,才能匹配上2035年的算力需求。蘇媽坦言,盡管用上目前最先進(jìn)的計(jì)算技術(shù)、最先進(jìn)的芯片,也滿(mǎn)足不了ChatGPT們。
而當(dāng)ChatGPT吞噬完大量算力、能源,“吃飽喝足”之后,各國(guó)打的不再是算力之爭(zhēng),而是“國(guó)運(yùn)之爭(zhēng)”:一旦搭載ChatGPT的人形機(jī)器人能夠大批量地上崗時(shí),吃人口紅利的國(guó)家不再有顯著的優(yōu)勢(shì)。
ChatGPT們,包括未來(lái)的人形機(jī)器人們,正對(duì)算力、能源“虎視眈眈”,同時(shí)對(duì)人類(lèi)的威脅也不容小覷:往小了看,影響到個(gè)人職業(yè)發(fā)展,往大了看,牽扯到國(guó)家競(jìng)爭(zhēng)力。
存算一體承載和釋放ChatGPT
而一切的一切,都得從打好算力之爭(zhēng)開(kāi)始。
傳統(tǒng)的AI1.0時(shí)代的代表企業(yè),例如AMD已經(jīng)開(kāi)始探尋新的出路:依靠系統(tǒng)級(jí)創(chuàng)新實(shí)現(xiàn)更大的突破。系統(tǒng)級(jí)創(chuàng)新,即從整體設(shè)計(jì)的上下游多個(gè)環(huán)節(jié)協(xié)同設(shè)計(jì)來(lái)完成性能的提升。
一個(gè)經(jīng)典案例是,在對(duì)模型算法層面使用創(chuàng)新數(shù)制(例如8位浮點(diǎn)數(shù)FP8)的同時(shí),在電路層對(duì)算法層面進(jìn)行優(yōu)化支持,最終實(shí)現(xiàn)計(jì)算層面數(shù)量級(jí)的效率提升:相比傳統(tǒng)的32位浮點(diǎn)數(shù)(FP32),進(jìn)行系統(tǒng)級(jí)創(chuàng)新的FP8則可以將計(jì)算效率提升30倍之多。而如果僅僅是優(yōu)化FP32計(jì)算單元的效率,無(wú)論如何也難以實(shí)現(xiàn)數(shù)量級(jí)的效率提升。
于是,為解決“如何用更少的電,輸出更高的算力”這一終極命題,業(yè)內(nèi)給出不少技術(shù)及方案:量子計(jì)算(量子芯片)、光機(jī)芯片、芯粒(Chiplet)、3D封裝、存算一體……。同時(shí)也有團(tuán)隊(duì)將這些技術(shù)進(jìn)行結(jié)合,以期達(dá)到系統(tǒng)級(jí)創(chuàng)新。
在這之中,現(xiàn)在能夠兼容CMOS工藝又能盡快量產(chǎn)的有芯粒、3D封裝、存算一體。而芯粒、存算一體是目前業(yè)內(nèi)普遍認(rèn)為,能夠突破 AI 算力困境,進(jìn)行架構(gòu)創(chuàng)新的兩條清晰路線。
浙商證券指出,面對(duì)未來(lái)潛在的算力指數(shù)增長(zhǎng),短期使用芯粒異構(gòu)技術(shù)加速各類(lèi)應(yīng)用算法落地,長(zhǎng)期來(lái)看,打造存算一體芯片,或?qū)⒊蔀槲磥?lái)算力升級(jí)的潛在方式。
(架構(gòu)創(chuàng)新路線 圖源:浙商證券)
芯粒異構(gòu)技術(shù)成為“種子”選手的原因是,該技術(shù)能夠突破先進(jìn)制程的封鎖,且大幅提升大型芯片的良率、降低設(shè)計(jì)成本、芯片制造成本。
而之所以說(shuō)是短期,是因?yàn)樵摷夹g(shù)路徑需要犧牲一定的體積和功耗,導(dǎo)致其目前只能在基站、服務(wù)器、智能電車(chē)等領(lǐng)域廣泛使用。
為解決這一“小缺陷”,目前在學(xué)術(shù)界,已有團(tuán)隊(duì)選擇將芯粒異構(gòu)技術(shù)與存算一體架構(gòu)相融合,以期達(dá)到1+1>2的效果:
在ISSCC 2022上,復(fù)旦大學(xué)芯片與系統(tǒng)前沿技術(shù)研究院劉明院士團(tuán)隊(duì)提出多芯粒的存算一體集成芯片——COMB-MCM。
據(jù)團(tuán)隊(duì)表示,電路上COMB-MCM采用存算一體設(shè)計(jì),能夠降低功耗、提高系統(tǒng)算力。在存算一體的加持下,該芯片具有精度無(wú)損且支持非結(jié)構(gòu)化稀疏的自適應(yīng)能效調(diào)節(jié)特點(diǎn),也就補(bǔ)足了芯粒異構(gòu)技術(shù)的短板。
既是芯粒異構(gòu)技術(shù)的最佳拍檔之一,同時(shí)也是未來(lái)架構(gòu)創(chuàng)新路徑之一,存算一體為何能博得多方“歡心”?
這是因?yàn)榇嫠阋惑w成功打破了“三堵墻”:
在傳統(tǒng)馮·諾伊曼架構(gòu)之下,芯片的存儲(chǔ)、計(jì)算區(qū)域是分離的。計(jì)算時(shí),數(shù)據(jù)需要在兩個(gè)區(qū)域之間來(lái)回搬運(yùn),而隨著神經(jīng)網(wǎng)絡(luò)模型層數(shù)、規(guī)模以及數(shù)據(jù)處理量的不斷增長(zhǎng),數(shù)據(jù)已經(jīng)面臨“跑不過(guò)來(lái)”的境況,成為高效能計(jì)算性能和功耗的瓶頸,也就是業(yè)內(nèi)俗稱(chēng)的“存儲(chǔ)墻”。
(存儲(chǔ)墻限制具體表現(xiàn) 圖源:浙商證券)
存儲(chǔ)墻相應(yīng)地也帶來(lái)了能耗墻、編譯墻(生態(tài)墻)的問(wèn)題。例如編譯墻問(wèn)題,是由于大量的數(shù)據(jù)搬運(yùn)容易發(fā)生擁塞,編譯器無(wú)法在靜態(tài)可預(yù)測(cè)的情況下對(duì)算子、函數(shù)、程序或者網(wǎng)絡(luò)做整體的優(yōu)化,只能手動(dòng)、一個(gè)個(gè)或者一層層對(duì)程序進(jìn)行優(yōu)化,耗費(fèi)了大量時(shí)間。
這“三堵墻”會(huì)導(dǎo)致算力無(wú)謂浪費(fèi):據(jù)統(tǒng)計(jì),在大算力的AI應(yīng)用中,數(shù)據(jù)搬運(yùn)操作消耗90%的時(shí)間和功耗,數(shù)據(jù)搬運(yùn)的功耗是運(yùn)算的650倍。
而存算一體能夠?qū)⒋鎯?chǔ)和計(jì)算融合,徹底消除了訪存延遲,并極大降低了功耗?;诖?,浙商證券報(bào)告指出,存算一體的優(yōu)勢(shì)包括但不限于:具有更大算力(1000TOPS以上)、具有更高能效(超過(guò)10-100TOPS/W)、降
本增效(可超過(guò)一個(gè)數(shù)量級(jí))······
存算一體,正在沖破三堵墻“解救”ChatGPT,加速算力升級(jí)。
大算力芯片需扎好馬步
除了架構(gòu)創(chuàng)新,芯片本身的升級(jí)迭代也非常重要。作為基石的底層芯片,需要足夠“大”,AI大算力應(yīng)用才能高樓平地起。
(ChatGPT研究框架 圖源:浙商證券)
那么AI大算力說(shuō)的“大”到底是多大?
以2020年發(fā)布的GPT3預(yù)訓(xùn)練語(yǔ)言模型為例,采用的是2020年最先進(jìn)的英偉達(dá)A100 GPU,算力達(dá)到624 TOPS。2023年,隨著模型預(yù)訓(xùn)練階段模型迭代,又新增訪問(wèn)階段井噴的需求,未來(lái)模型對(duì)于芯片算力的需求起碼要破千。
再例如自動(dòng)駕駛領(lǐng)域,根據(jù)財(cái)通證券研究所表明,自動(dòng)駕駛所需單個(gè)芯片的算力未來(lái)起碼1000+TOPS。
目前巨頭已開(kāi)始卷上1000+TOPS的SoC,主要用于自動(dòng)駕駛領(lǐng)域:在2021年4月,英偉達(dá)就已經(jīng)發(fā)布了算力為1000TOPS的DRIVE Atlan芯片。到了今年,英偉達(dá)直接推出芯片Thor達(dá)到2000TOPS。
(自動(dòng)駕駛所需算力圖譜 圖源:財(cái)通證券研究所)
故,大算力背景下,大算力芯片起碼得是1000+TOPS選手。
而在符合大算力條件下,也需要考慮到“用料”的功耗、造價(jià)問(wèn)題。
目前,在存算一體架構(gòu)優(yōu)勢(shì)下,億鑄科技為當(dāng)前的算力、能耗困局,給出一條解題思路:選擇有著面積更小、微縮性好等特性的RRAM實(shí)現(xiàn)“同等能耗,更大算力;同等算力,更低能耗”,為各大數(shù)據(jù)中心、自動(dòng)駕駛等應(yīng)用領(lǐng)域“排憂(yōu)解難”,在數(shù)字經(jīng)濟(jì)時(shí)代,實(shí)現(xiàn)綠色算力。
而在存算一體架構(gòu)下,傳統(tǒng)SRAM、閃存(Flash ) 均有著致命的缺陷,無(wú)法實(shí)現(xiàn)在大算力賽道的降本增效:
SRAM面積較大,占據(jù)了英偉達(dá)數(shù)據(jù)中心級(jí)GPU總邏輯面積的約50%。而一個(gè)A100 GPU的成本就在1萬(wàn)美元以上,根據(jù)測(cè)算,成熟產(chǎn)品每GB SRAM內(nèi)存的成本將在100美元左右,最貴的存儲(chǔ)器當(dāng)屬SRAM。
除了成本難壓之外,SRAM也存在著不穩(wěn)定的問(wèn)題。新型非易失性存儲(chǔ)架構(gòu)研究領(lǐng)域的專(zhuān)家李博士認(rèn)為,SRAM 的問(wèn)題在于它的靜態(tài)電流大,當(dāng)大量的 SRAM 堆積在芯片上時(shí),會(huì)產(chǎn)生一種被稱(chēng)為 DI/DT 的工程性問(wèn)題(也就是電流在短時(shí)間內(nèi)大量變化),應(yīng)用落地極具挑戰(zhàn)性。
基于這兩點(diǎn)考慮,SRAM 并不適合做大算力場(chǎng)景。李博士補(bǔ)充道:" 正因如此,采用 SRAM 的這些公司都在基于邊緣端做小算力的場(chǎng)景,比如語(yǔ)音識(shí)別、智能家居的喚醒、關(guān)鍵命令詞的識(shí)別等。"
同時(shí),F(xiàn)lash也面臨著因微縮性差導(dǎo)致不穩(wěn)定的問(wèn)題。傳統(tǒng)存儲(chǔ)器的局限性讓行業(yè)逐漸將目光逐漸轉(zhuǎn)向了新型存儲(chǔ)器:
- 比如近期英飛凌宣布其下一代 AURIX ?微控制器 ( MCU ) 將采用新型非易失性存儲(chǔ)器 ( NVM ) RRAM ( ReRAM ) ;
- 億鑄科技自2020成立以來(lái),就專(zhuān)注于研發(fā)基于RRAM的全數(shù)字存算一體大算力AI芯片。
······
ChatGPT,需要存算一體的“解救”,也需要該架構(gòu)下,更物美價(jià)廉(微縮性好、單位面積小、成本低)的新型存儲(chǔ)器RRAM的大力支持。
據(jù)了解,國(guó)內(nèi)目前已公開(kāi)的能夠?qū)崿F(xiàn)存算一體AI大算力的芯片公司僅有億鑄科技,該公司基于RRAM的存算一體AI大算力芯片將在今年回片。期待國(guó)內(nèi)更多玩家加入存算一體AI大算力芯片的賽道,滿(mǎn)足未來(lái)的“ChatGPT們”以及下游應(yīng)用場(chǎng)景的算力需求,同時(shí)響應(yīng)國(guó)家綠色算力號(hào)召,在“雙碳”政策下,更快實(shí)現(xiàn)AI“智力”升維。