2012年,谷歌團(tuán)隊(duì)推出著名的八層卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet,在人臉識(shí)別方面大幅提升了圖像識(shí)別準(zhǔn)確率,帶動(dòng)了硬件層面卷積的普及。
2017年,谷歌團(tuán)隊(duì)又推出基于自注意力機(jī)制的模型Transformer,在語(yǔ)義理解方面大幅提升了語(yǔ)音翻譯效果,帶動(dòng)了硬件層面GEMM的普及。
2018年,OpenAI團(tuán)隊(duì)推出一種預(yù)訓(xùn)練語(yǔ)言模型GPT(Generative Pre-trained Transformer),也就是最初代的GPT-1(12層),并通過(guò)了圖靈測(cè)試。
圖源:WAIC,天數(shù)智芯
也許在GPT-1時(shí)代,大眾還沒(méi)有什么感受,但GPT-3、GPT-4架構(gòu)下的ChatGPT讓人工智能成功出圈,并產(chǎn)生了全球性的“大模型和AIGC熱”。于是,我們從硬件的角度來(lái)看,GPT到底帶來(lái)了哪些變革?
事實(shí)上,算力是關(guān)乎大模型產(chǎn)品成功與否的關(guān)鍵,那么大模型需要多少算力呢?天數(shù)智芯副總裁鄒翾表示:“對(duì)于頭部企業(yè)來(lái)講,預(yù)計(jì)需要1萬(wàn)張最新的主流GPU卡,而對(duì)于追隨企業(yè)來(lái)講,為了追趕頭部企業(yè)的步伐,他們?cè)诨A(chǔ)設(shè)施方面的需求可能更大。”
正是在這樣的大算力需求下,市面上英偉達(dá)的芯片貴出天際。據(jù)悉,國(guó)內(nèi)幾家頭部互聯(lián)網(wǎng)廠家都向英偉達(dá)下了1.5萬(wàn)-1.6萬(wàn)的A800和H800訂單,每家的金額在十幾億美金左右,而這些產(chǎn)能將在2024年得到基本保障。
在這樣的大背景下,我們看到新聞,竟然有人開(kāi)始走私GPU卡,特斯拉CEO馬斯克對(duì)此表示:“目前,GPU比毒品更難獲得”。當(dāng)然,違法的行為不可取,但我們真切地看到了大模型“算力發(fā)動(dòng)機(jī)”的威力。
換言之,大模型對(duì)硬件的最大需求就是要有可用的算力,那么這個(gè)“可用”到底如何體現(xiàn)呢?通??梢詮娜齻€(gè)方面來(lái)理解:
- 易用
需要利舊現(xiàn)有算法模塊,且調(diào)優(yōu)經(jīng)驗(yàn)可借鑒
- 通用
需要可支持模型的快速變形,快速支持新算子,以及快速支持新通訊(重組)
- 靈活并行
需要滿足訪存全交換和計(jì)算全互聯(lián)
結(jié)合當(dāng)前市場(chǎng)上的可用產(chǎn)品,主要包括GPU和ASIC芯片。然而,相比于ASIC芯片,GPGPU具有更強(qiáng)的通用性,所以在主流的AI加速芯片市場(chǎng)上,GPGPU占到了90%的市場(chǎng)份額。
?此外,雖然說(shuō)大模型不像中、小模型那樣依賴CUDA生態(tài),看上去GPGPU和ASIC在大模型上的差距沒(méi)有那么大,但不管是模型的訓(xùn)練還是部署,大模型早期的開(kāi)放框架都是基于GPGPU架構(gòu)實(shí)現(xiàn)的,因此GPGPU的軟件生態(tài)會(huì)更為成熟,而ASIC還處在開(kāi)局階段。
對(duì)此,鄒翾表示:“天數(shù)智芯作為國(guó)內(nèi)第一家實(shí)現(xiàn)設(shè)計(jì)、制造、量產(chǎn)的GPGPU企業(yè),當(dāng)前已經(jīng)實(shí)現(xiàn)了商業(yè)閉環(huán),并在大模型訓(xùn)練領(lǐng)域取得了階段性進(jìn)展,完成了百億級(jí)參數(shù)大模型訓(xùn)練?!?/p>
下圖中為天數(shù)智芯推出的天垓100加速卡已經(jīng)支持的模型訓(xùn)練集合:
圖 | 天垓100已支持百億級(jí)參數(shù)大模型訓(xùn)練
從市場(chǎng)方面來(lái)看,鄒翾認(rèn)為:“去年還主要是天垓100在出貨,而今年天垓100和智鎧100一起出貨,在整體市場(chǎng)體量方面會(huì)更加趨好?!?/p>