編輯?|??GACS
解讀邊緣計(jì)算芯片運(yùn)行大模型的挑戰(zhàn)與機(jī)會(huì)。
9月14日~15日,2023全球AI芯片峰會(huì)(GACS 2023)在深圳南山圓滿舉行。在15日的高能效AI芯片專場(chǎng)上,云天勵(lì)飛公司的副總裁、芯片業(yè)務(wù)線總經(jīng)理李愛(ài)軍,分享了主題為《大模型時(shí)代下國(guó)產(chǎn)邊緣計(jì)算芯片的挑戰(zhàn)和突圍》的主題演講。李愛(ài)軍在演講中說(shuō),大模型的出現(xiàn)讓邊緣計(jì)算看到了Corner case的破解之道。全球邊緣計(jì)算市場(chǎng)規(guī)模不斷擴(kuò)大,但面臨著場(chǎng)景、芯片平臺(tái)、算力需求碎片化的痛點(diǎn),算法投入產(chǎn)出不成正比。大模型具有強(qiáng)大的圖像或語(yǔ)言理解能力、場(chǎng)景泛化能力,有望解決這些痛點(diǎn)。為滿足大模型部署需求,邊緣計(jì)算芯片設(shè)計(jì)需要考慮SoC集成、算力可靈活擴(kuò)展芯片架構(gòu)、統(tǒng)一的工具鏈架構(gòu)、隱私保護(hù)等方面因素。李愛(ài)軍談道,云天勵(lì)飛基于其自研算法開(kāi)發(fā)平臺(tái)和算法芯片化平臺(tái),不僅訓(xùn)練了“云天天書(shū)”大模型,還推出了新一代邊緣計(jì)算芯片平臺(tái)。
以下為李愛(ài)軍的演講實(shí)錄:大家好!我是云天勵(lì)飛的李愛(ài)軍,今天我給大家?guī)?lái)大模型邊緣計(jì)算芯片的挑戰(zhàn)和突圍的主題分享,我的分享里面有三個(gè)關(guān)鍵詞:一個(gè)是邊緣計(jì)算,第二個(gè)是大模型,第三個(gè)是國(guó)產(chǎn)芯片。為什么是這三個(gè)關(guān)鍵詞?我們大家都知道,AI在落地的過(guò)程中,特別是芯片,主要涉及到端、邊、云三個(gè)大的場(chǎng)景。對(duì)于芯片來(lái)說(shuō),云和端這兩個(gè)場(chǎng)景相對(duì)而言比較明確。比如說(shuō)云,主要是拿來(lái)做訓(xùn)練,強(qiáng)調(diào)它的通用性;對(duì)于端,它強(qiáng)調(diào)場(chǎng)景非常聚焦,比方說(shuō)手機(jī),強(qiáng)調(diào)了它極致的能效比;中間的邊,就代表邊緣計(jì)算。而邊緣計(jì)算場(chǎng)景對(duì)于整個(gè)AI來(lái)說(shuō),實(shí)際上是一個(gè)全新的場(chǎng)景,過(guò)去這十年,大家都在這個(gè)場(chǎng)景里面探索。邊緣計(jì)算這個(gè)場(chǎng)景本身給大家?guī)?lái)的想象空間也是非常巨大和無(wú)限,因?yàn)榇蠹覍?duì)于邊緣計(jì)算的共識(shí)是場(chǎng)景非常的豐富。大模型自從去年11月份ChatGPT出來(lái)以后,已經(jīng)經(jīng)歷了大半年的過(guò)程,大家也都能看到,整個(gè)AI的方向基本上已經(jīng)非常明確,或者說(shuō)大模型代表AI的第二階段。
大模型在云端帶動(dòng)了整個(gè)GPU,在端側(cè),包括手機(jī)也在迅速跟進(jìn),高通的手機(jī)芯片,以及類似蘋果、華為這些業(yè)內(nèi)的頂尖廠家,都在陸續(xù)推出基于端側(cè)的大模型。對(duì)邊緣計(jì)算來(lái)說(shuō),大模型跟邊緣計(jì)算有沒(méi)有結(jié)合點(diǎn)、交叉點(diǎn)?這是我們?cè)谒伎己吞剿鞯摹A硗庖粋€(gè)是國(guó)產(chǎn)芯片,在現(xiàn)在這樣的大國(guó)際形勢(shì)下,國(guó)產(chǎn)芯片,特別是國(guó)產(chǎn)工藝芯片,我想這已經(jīng)是一個(gè)繞不開(kāi)的主題了。我相信在邊緣計(jì)算這個(gè)場(chǎng)景下,在不久的將來(lái),一定會(huì)有一家企業(yè)基于國(guó)產(chǎn)的工藝推出滿足邊緣計(jì)算場(chǎng)景的突破。我將從下面三個(gè)方面進(jìn)行主題分享。
01.三個(gè)技術(shù)平臺(tái),實(shí)現(xiàn)“算法芯片化”
云天勵(lì)飛是一家什么樣的企業(yè)?云天勵(lì)飛是一個(gè)應(yīng)用驅(qū)動(dòng)的技術(shù)型企業(yè),公司是2014年的8月份成立的,云天勵(lì)飛是一家為數(shù)不多的,具有算法、芯片、大數(shù)據(jù)全棧能力的AI企業(yè)。在過(guò)去九年時(shí)間里,我們探索出了一條AI落地的一套方法和設(shè)計(jì)平臺(tái),就是算法芯片化這樣的設(shè)計(jì)平臺(tái)。通過(guò)這個(gè)平臺(tái),我們有效地把AI的算法、邊緣場(chǎng)景的落地,以及AI處理器的指令集和芯片架構(gòu)、工具鏈,能夠有機(jī)整合在一起。通過(guò)應(yīng)用產(chǎn)生數(shù)據(jù)、數(shù)據(jù)訓(xùn)練算法、算法定義芯片、芯片賦能應(yīng)用,這樣的一個(gè)數(shù)據(jù)飛輪,我們不斷地推動(dòng)AI在邊緣場(chǎng)景的落地。云天勵(lì)飛的算法芯片化平臺(tái),它由下面三個(gè)可落地的技術(shù)平臺(tái)組成:第一個(gè)是應(yīng)用落地驅(qū)動(dòng)的算法平臺(tái)。在這個(gè)平臺(tái)上,我們實(shí)現(xiàn)了算法超過(guò)14個(gè)領(lǐng)域,以及102個(gè)種類的落地。同時(shí),這些算法可以支持端云協(xié)同,支持細(xì)分場(chǎng)景下的算法快速微調(diào)和部署。同時(shí)基于這樣的平臺(tái),我們也正在研發(fā)云天勵(lì)飛的“云天天書(shū)”大模型。二是算法驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)處理器平臺(tái),通過(guò)這個(gè)平臺(tái)上,我們能夠?qū)崿F(xiàn)算法高效推理的指令集設(shè)計(jì)。
同時(shí),基于這樣的平臺(tái),我們也完成了四代神經(jīng)網(wǎng)絡(luò)處理器的迭代。并且得益于這些迭代,我們能夠高效地支持卷積神經(jīng)網(wǎng)絡(luò)(CNN)以及新一代的Transformer計(jì)算范式。并且能夠高效地支持目前大家所熟悉的,包括視覺(jué)大模型、多模態(tài)大模型、NLP大模型在邊緣端的高效部署。三是面向邊緣計(jì)算場(chǎng)景的芯片平臺(tái),通過(guò)這樣的平臺(tái),我們實(shí)現(xiàn)了三代可商用的邊緣計(jì)算芯片的落地,并且算力范圍從2TOPS到128TOPS的這樣的覆蓋。我們通過(guò)這個(gè)平臺(tái),實(shí)現(xiàn)了D2D Chiplet這樣的先進(jìn)封裝技術(shù),這個(gè)可能是基于國(guó)產(chǎn)工藝,第一個(gè)進(jìn)入可量產(chǎn)的Chiplet技術(shù)。同時(shí),基于這樣的平臺(tái),我們還實(shí)現(xiàn)了C2C Mesh這種高效互聯(lián)技術(shù),通過(guò)這樣的互聯(lián)技術(shù),我們可以實(shí)現(xiàn)算力的靈活可擴(kuò)展。
02.大模型時(shí)代下,邊緣計(jì)算芯片面臨多重技術(shù)挑戰(zhàn)
在大模型時(shí)代下,邊緣計(jì)算芯片具有哪些挑戰(zhàn)。我們知道,整個(gè)邊緣計(jì)算場(chǎng)景,它的規(guī)模是呈不斷擴(kuò)大的趨勢(shì)。那什么是邊緣計(jì)算?邊緣計(jì)算,它卡在端和云的中間。邊緣計(jì)算又分成Edge Device和Edge Server兩個(gè)細(xì)分場(chǎng)景,包括有邊緣的智能終端設(shè)備、邊緣的智能網(wǎng)關(guān),以及邊緣服務(wù)器這些場(chǎng)景。據(jù)IDC的預(yù)測(cè),到2023年底,全球的邊緣計(jì)算市場(chǎng)將達(dá)到2000億美金的規(guī)模,年增長(zhǎng)率也非常高,達(dá)到13%以上。預(yù)計(jì)到2026年,邊緣計(jì)算市場(chǎng)將突破3000億美金??梢哉f(shuō),這是一個(gè)非常值得大家期待的AI落地的場(chǎng)景。
1、邊緣計(jì)算場(chǎng)景落地痛點(diǎn):Corner Case難以有效解決
但是在落地的過(guò)程中,特別是云天勵(lì)飛過(guò)去九年,我們?cè)诼涞剡^(guò)程中,我們所看到的現(xiàn)狀是怎樣的?首先邊緣計(jì)算的場(chǎng)景非常眾多、紛繁復(fù)雜,有園區(qū)、安防、商業(yè)、教育等等。這么多的場(chǎng)景,場(chǎng)景的要求又各種各樣。同時(shí),在邊緣計(jì)算場(chǎng)景落地的芯片平臺(tái)種類也是五花八門,有X86架構(gòu)的、ARM架構(gòu)的,有FPGA的,也有SoC主控芯片,也有算力芯片,甚至傳統(tǒng)的NVR芯片也被歸在這個(gè)類。算力的需求也是極度碎片化的,從0.5T算力,到幾十T甚至到幾百T,需求各異。同時(shí)對(duì)數(shù)據(jù)精度的要求也不一樣,有INT8的要求,INT12的要求,還有FP16的要求。
從算法角度來(lái)說(shuō),算法投入產(chǎn)出不成正比,難以實(shí)現(xiàn)商業(yè)閉環(huán)。算法從研發(fā)訓(xùn)練出來(lái),在場(chǎng)景落地的過(guò)程中,會(huì)遇到各種各樣的精度、識(shí)別度的問(wèn)題,以及目標(biāo)變化的問(wèn)題。目標(biāo)變化并不是目標(biāo)本身有變化,而是這個(gè)目標(biāo)的姿態(tài)有變化,比如說(shuō)一個(gè)貓,正面看像是貓,可是背面看就不認(rèn)識(shí)了。這需要算法不斷進(jìn)行迭代和訓(xùn)練,這就導(dǎo)致整個(gè)落地的過(guò)程中成本不收斂,也就是我們做一個(gè)項(xiàng)目,不掙錢甚至虧錢。因?yàn)檎麄€(gè)落地過(guò)程中客戶對(duì)于整個(gè)體驗(yàn)是不滿意的,客戶不滿意就不會(huì)給方案商繼續(xù)下訂單,方案商沒(méi)有訂單,意味著芯片原廠也沒(méi)有訂單,這就形成了碎片化的惡性循環(huán),這就是當(dāng)前邊緣計(jì)算場(chǎng)景落地的困境。邊緣計(jì)算場(chǎng)景的痛點(diǎn)究其問(wèn)題,最大的痛點(diǎn)在哪里?在于場(chǎng)景的Corner Case難以有效解決。我們以長(zhǎng)尾算法為例,長(zhǎng)尾算法的開(kāi)發(fā)部署要經(jīng)歷,第一個(gè)是單場(chǎng)景數(shù)據(jù)的搜集,還有算法的訓(xùn)練,產(chǎn)品的測(cè)試,再到應(yīng)用部署4個(gè)環(huán)節(jié)。這里面有兩個(gè)循環(huán),一個(gè)是產(chǎn)品研發(fā)階段的小循環(huán),還有一個(gè)產(chǎn)品研發(fā)完以后去部署應(yīng)用的時(shí)候,還有叫Corner Case的持續(xù)的循環(huán)。因?yàn)檫@兩個(gè)循環(huán)的存在,導(dǎo)致整個(gè)落地成本居高不下。
2、Corner Case破解之道:大模型的運(yùn)用
大模型的出現(xiàn),讓我們看到了解決場(chǎng)景邊緣,特別是解決邊緣計(jì)算場(chǎng)景的Corner Case的希望。大模型現(xiàn)在有兩種,一個(gè)是CV(計(jì)算機(jī)視覺(jué))大模型,一個(gè)是NLP(自然語(yǔ)言處理)大模型。CV大模型具有什么樣的特點(diǎn)和優(yōu)勢(shì)?首先,CV大模型具有強(qiáng)大的圖像理解能力,同時(shí)它也具有強(qiáng)大的場(chǎng)景泛化能力,這意味著它可以實(shí)現(xiàn)在攝像頭視野范圍內(nèi)所有目標(biāo)的分割、檢測(cè)和深度估計(jì),為泛場(chǎng)景的精確識(shí)別提供技術(shù)保障。這里面我們可以看到目前的開(kāi)源網(wǎng)絡(luò),包括Dino-v2、Segment-Anything、Ground-Dino等等這些算法。而NLP大模型,它有強(qiáng)大的語(yǔ)言理解能力,以及強(qiáng)大的多輪交互能力,這意味著算法能夠快速、準(zhǔn)確地理解用戶指令,從而可以實(shí)現(xiàn)場(chǎng)景Corner case的精準(zhǔn)操作。CV大模型與NLP大模型的結(jié)合,在邊緣計(jì)算場(chǎng)景的落地,讓我們能夠看到Corner Case有被解決的希望。
3、邊緣計(jì)算芯片運(yùn)行大模型的雙重挑戰(zhàn)
大模型在邊緣計(jì)算場(chǎng)景運(yùn)用,對(duì)于邊緣計(jì)算芯片有什么樣的要求和挑戰(zhàn)呢?對(duì)于AI處理器而言,因?yàn)榇竽P蛶?lái)全新的計(jì)算泛式和計(jì)算要求,它需要AI處理器能夠高效地執(zhí)行Transformer這樣的計(jì)算范式,同時(shí)要能夠高效執(zhí)行包括Softmax、Layer norm等新算子,它的算力要求要大,大模型的算力,特別CV大模型的算力是傳統(tǒng)小模型的幾倍甚至十幾倍。因?yàn)榇竽P偷膮?shù)量巨大,它對(duì)于內(nèi)存的帶寬要求以及內(nèi)存容量要求,相比原來(lái)的小模型也是翻番,甚至翻幾番。另外大模型同樣帶來(lái)了對(duì)邊緣計(jì)算芯片的全新設(shè)計(jì)要求。大模型在邊緣計(jì)算場(chǎng)景落地,需要形成邊緣的計(jì)算芯片上全業(yè)務(wù)的閉環(huán)。這就意味著對(duì)邊緣計(jì)算芯片,不光對(duì)于算力有要求,還需要芯片是一個(gè)具有SoC集成度的芯片要求。也就是它不光要有AI算力,還要有相對(duì)比較強(qiáng)的通用算力,包括CPU、GPU等等。
因?yàn)榇竽P驮诼涞貓?chǎng)景中參數(shù)規(guī)模有變化,有可能10億規(guī)模,也有可能百億規(guī)模,也有可能是幾百億規(guī)模,它希望芯片的架構(gòu)是一個(gè)算力可靈活擴(kuò)展的架構(gòu),在應(yīng)用的時(shí)候可以量體裁衣,根據(jù)場(chǎng)景的要求選擇不同的算力。不同算力的芯片對(duì)于算法來(lái)說(shuō),希望有一個(gè)統(tǒng)一的工具鏈架構(gòu),而不是說(shuō)這個(gè)算力場(chǎng)景我要用這家芯片,那個(gè)算力用那家芯片,而工具鏈又是各家做各家的。如果這種情況下,整個(gè)大模型在邊緣場(chǎng)景下的落地仍然會(huì)舉步維艱。同時(shí)大模型因?yàn)楸葌鹘y(tǒng)的小模型帶來(lái)一些優(yōu)勢(shì),包括泛化的優(yōu)勢(shì)、理解的優(yōu)勢(shì)等,對(duì)于用戶的數(shù)據(jù),它的處理量級(jí)比小模型會(huì)大一個(gè)數(shù)量級(jí)甚至兩個(gè)數(shù)量級(jí),也就是有更多海量的用戶數(shù)據(jù)會(huì)被在邊緣側(cè)處理,同時(shí)這些數(shù)據(jù)的理解也會(huì)更加深刻,這就帶來(lái)用戶數(shù)據(jù)的隱私保護(hù)的問(wèn)題。
03.加速大模型落地邊緣場(chǎng)景,解構(gòu)云天勵(lì)飛的架構(gòu)創(chuàng)新
在邊緣計(jì)算芯片這些技術(shù)困境下,云天勵(lì)飛做了哪些事情?首先是云天勵(lì)飛正在自研“云天天書(shū)”大模型,這個(gè)大模型是基于云天的算法開(kāi)放平臺(tái)和算法芯片化平臺(tái),通過(guò)結(jié)合互聯(lián)網(wǎng)上海量的語(yǔ)料數(shù)據(jù),訓(xùn)練出通用的基礎(chǔ)大模型。在通用基礎(chǔ)大模型的基礎(chǔ)上,結(jié)合云天勵(lì)飛過(guò)去九年來(lái)的沉淀積累,訓(xùn)練出行業(yè)大模型,這里面就包括智慧城市、智慧安防、智慧交通、智慧商超等等,這些領(lǐng)域的行業(yè)大模型。之后再針對(duì)落地細(xì)分的場(chǎng)景,將數(shù)據(jù)集進(jìn)行微調(diào),從而實(shí)現(xiàn)真正可落地的,滿足場(chǎng)景泛化要求的場(chǎng)景大模型。云天天書(shū)大模型也是由CV大模型、NLP大模型和多模態(tài)大模型組成。在芯片側(cè),云天勵(lì)飛打造了新一代的邊緣計(jì)算芯片平臺(tái)DeepEdge10。它是一個(gè)系列化的芯片平臺(tái)。它是基于國(guó)產(chǎn)的工藝,可以說(shuō)這顆芯片是真正的國(guó)產(chǎn)芯片。
其次它采用了先進(jìn)的Chiplet技術(shù),它能實(shí)現(xiàn)算力的靈活擴(kuò)展。DeepEdge10是具有SoC主控集成度的芯片,內(nèi)置了云天最新的第四代神經(jīng)網(wǎng)絡(luò)處理器,可以高效支持大模型邊緣側(cè)的執(zhí)行和落地。另外它實(shí)現(xiàn)了D2D Chiplet創(chuàng)新技術(shù),同時(shí)實(shí)現(xiàn)了D2D/C2C Mash擴(kuò)展架構(gòu),來(lái)實(shí)現(xiàn)算力的靈活可擴(kuò)展。在主控集SoC方面,DeepEdge10具有性能強(qiáng)勁的、主流的CPU核。另外它集成了滿足邊緣場(chǎng)景應(yīng)用的2D/3D的GPU能力,同時(shí)集成了第四代神經(jīng)網(wǎng)絡(luò)處理器400T,所以它具有澎湃的邊緣AI的算力。它還有強(qiáng)大的多媒體能力,包括對(duì)于8K30視頻以及2億像素的圖像處理能力,還有不錯(cuò)的顯示能力,支持雙屏異顯等等。它有完備的高低速外圍接口,例如我們熟悉的USB、PCI等,包括以太網(wǎng)口都全部支持,甚至還支持CAN FD,可以滿足工業(yè)場(chǎng)景的實(shí)時(shí)連接需要。
同時(shí),它具有硬件級(jí)安全特性,支持國(guó)際主流的加解密算法,同時(shí)支持安全boot,以及物理級(jí)的安全系統(tǒng)。DeepEdge10內(nèi)置了云天勵(lì)飛第四代神經(jīng)網(wǎng)絡(luò)處理器,具有這些特點(diǎn):首先它的數(shù)據(jù)格式,它是支持FP16、INT16和INT8這些精度,因?yàn)橛辛诉@些支持,我們得以做混合精度量化。另外支持多線程執(zhí)行,同時(shí)支持QAT模型、支持動(dòng)態(tài)量化模型、支持最新的Transformer網(wǎng)絡(luò)結(jié)構(gòu)模型。對(duì)于大模型的新的計(jì)算,我們有哪些考慮呢?首先是我們?cè)O(shè)計(jì)了三維并行的矩陣計(jì)算架構(gòu)。
結(jié)合矩陣計(jì)算和矢量計(jì)算的聯(lián)合優(yōu)化,我們可以高效地提升像Softmax、LayerNorm這些算子的性能。通過(guò)稀疏化、參數(shù)/數(shù)據(jù)的壓縮和低比特量化技術(shù),我們可以實(shí)現(xiàn)大模型對(duì)帶寬要求的極致優(yōu)化。通過(guò)INT8、INT16、FP16,可以實(shí)現(xiàn)混合數(shù)據(jù)精度的量化,從而保證大模型在邊緣側(cè)落地的時(shí)候幾乎不掉精度。通過(guò)D2D以及C2C的高速互聯(lián)接口,可以實(shí)現(xiàn)算力的靈活擴(kuò)展。DeepEdge10芯片是國(guó)內(nèi)首個(gè)基于國(guó)產(chǎn)工藝量產(chǎn)的D2D Chiplet芯片。D2D就是die to die,意味著兩個(gè)die之間高速互聯(lián)。我們采用的die to die技術(shù)具有非常高的速率,還有帶寬的密度、pJ級(jí)功耗級(jí)別,以及納米級(jí)延時(shí)等等,包括傳輸、路由、統(tǒng)一內(nèi)存等等。因?yàn)橛辛诉@些特性,所以我們才能夠負(fù)責(zé)任地說(shuō),我們可以支持當(dāng)前的大模型,包括百億大模型乃至千億大模型參數(shù)大、計(jì)算量大、低延時(shí)的要求。
通過(guò)以上的創(chuàng)新,云天勵(lì)飛打造了DeepEdge10這樣基于國(guó)產(chǎn)工藝的芯片平臺(tái),我們形成了一個(gè)系列化的芯片。這樣的芯片平臺(tái)我們可以有效地支持當(dāng)前在邊緣計(jì)算場(chǎng)景落地的,從迷你PCIe卡、AI盒子、加速卡,到邊緣服務(wù)器等各類硬件產(chǎn)品的需要,從而實(shí)現(xiàn)整個(gè)豐富邊緣計(jì)算場(chǎng)景的落地。我們通過(guò)架構(gòu)的創(chuàng)新,可以說(shuō)DeepEdge10實(shí)現(xiàn)了國(guó)產(chǎn)芯片在邊緣計(jì)算場(chǎng)景的突圍。云天勵(lì)飛致力于國(guó)產(chǎn)工藝以及國(guó)產(chǎn)大模型邊緣計(jì)算芯片的突圍,不論遭受怎樣的外部壓力,我們矢志不渝。謝謝大家!
以上是李愛(ài)軍演講內(nèi)容的完整整理。