編者按
《異構(gòu)融合計(jì)算技術(shù)白皮書》在9月15日的世界計(jì)算大會(huì)上,由工信部電子五所的楊院長(zhǎng)正式發(fā)布。
站在計(jì)算機(jī)體系結(jié)構(gòu)的歷史發(fā)展角度,此白皮書的意義重大:
白皮書率先提出“異構(gòu)融合計(jì)算”概念。這對(duì)計(jì)算機(jī)體系結(jié)構(gòu)的創(chuàng)新發(fā)展,具有非常重大的意義。
白皮書系統(tǒng)性地梳理異構(gòu)融合相關(guān)技術(shù),起到技術(shù)引領(lǐng)和廣泛宣傳的作用。
異構(gòu)融合計(jì)算需要行業(yè)形成共識(shí),最終形成統(tǒng)一的行業(yè)生態(tài),需要更多的行業(yè)協(xié)同。白皮書進(jìn)行了廣泛代表的、正式的、權(quán)威的全行業(yè)呼吁。
或許,未來5-10年回頭看,這次白皮書的發(fā)布,會(huì)是計(jì)算機(jī)體系結(jié)構(gòu)和算力芯片行業(yè)的一個(gè)重要的里程碑事件。
1、《異構(gòu)融合計(jì)算技術(shù)白皮書》重磅發(fā)布
計(jì)算架構(gòu)從同構(gòu)走到異構(gòu),異構(gòu)計(jì)算已經(jīng)成為主流。但AI大模型、自動(dòng)駕駛、元宇宙等超高算力需求的領(lǐng)域仍在快速發(fā)展,算力仍需持續(xù)快速提升;與此同時(shí),算力成本需要數(shù)量級(jí)下降。技術(shù)發(fā)展不會(huì)停止:隨著異構(gòu)的計(jì)算系統(tǒng)越來越多,計(jì)算架構(gòu)需要進(jìn)一步從異構(gòu)計(jì)算走向異構(gòu)融合計(jì)算。
當(dāng)前,是異構(gòu)融合計(jì)算的萌芽階段:
2019年,Intel提出了超異構(gòu)的概念,只強(qiáng)調(diào)了“多”異構(gòu),并沒有強(qiáng)調(diào)異構(gòu)的“融合”,并且這些年也沒有具體的產(chǎn)品出來。
NVIDIA雖然沒有提超異構(gòu)或異構(gòu)融合的概念,但NVIDIA的許多產(chǎn)品也在奔著這個(gè)方向在發(fā)展。例如,在數(shù)據(jù)中心領(lǐng)域,NVIDIA已經(jīng)有了GPU+CPU融合芯片,GPU+DPU融合芯片也已經(jīng)在研發(fā)當(dāng)中,未來GPU+CPU+DPU進(jìn)一步融合是必然趨勢(shì)。再例如,在汽車領(lǐng)域,NVIDIA THOR集成了數(shù)據(jù)中心架構(gòu)的CPU、GPU和DPU,能夠?qū)崿F(xiàn)和數(shù)據(jù)中心計(jì)算環(huán)境的一致性兼容,可以看作是一款具有一定“異構(gòu)融合計(jì)算”特征的大算力芯片。
時(shí)間來到2023年9月,在湖南長(zhǎng)沙舉辦的第五屆世界計(jì)算大會(huì)上,工業(yè)和信息化部電子第五研究所軟件與系統(tǒng)研究院院長(zhǎng)楊曉明,正式發(fā)布了《異構(gòu)融合計(jì)算技術(shù)白皮書》。在工信部電子五所的精心組織下,國內(nèi)諸多計(jì)算領(lǐng)域的高校和企業(yè)的眾多專家,歷經(jīng)半年多努力,全面而系統(tǒng)地梳理了異構(gòu)融合計(jì)算的方方面面,在行業(yè)中凝聚了廣泛共識(shí),最終形成了這本白皮書。
《異構(gòu)融合計(jì)算白皮書》的發(fā)布,必將在行業(yè)里形成廣泛影響力,使得更多的行業(yè)公司、科研院所以及廣大開發(fā)者,能夠關(guān)注并支持異構(gòu)融合計(jì)算的發(fā)展。
或許,未來5-10年回頭看,這次白皮書的發(fā)布,會(huì)是計(jì)算機(jī)體系結(jié)構(gòu)和算力芯片行業(yè)的一個(gè)重要的里程碑事件。
2、《異構(gòu)融合計(jì)算技術(shù)白皮書》內(nèi)容介紹
(本章節(jié)內(nèi)容均來自《異構(gòu)融合計(jì)算白皮書》2023版)
2.1 參編單位和參編人員
《異構(gòu)融合計(jì)算技術(shù)白皮書》編寫者
參編單位:
浪潮電子信息產(chǎn)業(yè)股份有限公司、上海矩向科技有限公司、中國電信研究院、清華大學(xué)、中國科學(xué)院軟件研究所、國防科技大學(xué)、復(fù)旦大學(xué)、中國長(zhǎng)城研究院、中國電子技術(shù)標(biāo)準(zhǔn)化研究院、曙光信息產(chǎn)業(yè)(北京)有限公司、同方計(jì)算機(jī)有限公司、上海熠知電子科技有限公司、阿里云技術(shù)有限公司、中科院計(jì)算所、紫光集團(tuán)前沿技術(shù)研究院
參編人員:
楊曉明、陳平、劉建、熊婧、李冬、黃朝波、廉建芳、顏秉珩、林顯成、董剛、王洲、蔡彥、陳小文 、盧晶雨、任翔、劉娜、張政、李寧、崔士偉、徐揚(yáng)、李璇、劉玉海、尹航、李陽、買強(qiáng)、張磊、張震寧、趙立新、左明敏、周鵬、戴少鵬、楊蔚才、李亞軍、伍海龍、陳碩、張陽、劉占民、王佑站、閆沛浩、張淑艷、楊攀飛
2.2 目錄
2.3 編者序
近年來,自動(dòng)駕駛、元宇宙、人工智能等應(yīng)用不斷創(chuàng)新發(fā)展,數(shù)據(jù)規(guī)模、算法復(fù)雜度以及算力需求爆發(fā)式增長(zhǎng)。各類加速處理器已成為算力基礎(chǔ)設(shè)施的重要組件,基于CPU+xPU的異構(gòu)計(jì)算系統(tǒng)逐漸成為各算力場(chǎng)景的主流架構(gòu)。然而,隨著異構(gòu)計(jì)算系統(tǒng)的種類和數(shù)量越來越多,xPU性能與靈活性難以兼顧、各xPU間計(jì)算孤島問題難以協(xié)同、調(diào)試和維護(hù)成本增高等問題愈發(fā)凸顯 ,亟需從異構(gòu)融合計(jì)算方向加強(qiáng)理論研究和實(shí)踐探索。
以人工智能發(fā)展為例,Nature Electronics期刊在 2022年 4月的一篇文章顯示:從 2018年開始,隨著AI大模型應(yīng)用的涌現(xiàn),算力需求平均每2個(gè)月翻一倍;摩根士丹利估計(jì)2022年谷歌的 3.3萬億次搜索,平均成本約為每個(gè) 0.2美分 John Hennessy表示 基于大模型搜索的成本是標(biāo)準(zhǔn)關(guān)鍵詞搜索的10倍。需求的變化和成本的約束,再加上NoC(Network on Chip)和 SiP(System in Package)等新芯片技術(shù)的賦能 必將推動(dòng)算力基礎(chǔ)架構(gòu)的變革。計(jì)算架構(gòu)已逐漸從目前各自為政、孤島式的異構(gòu)計(jì)算,走向異構(gòu)融合計(jì)算。同時(shí),以系統(tǒng)設(shè)計(jì)為中心,按照應(yīng)用需求來設(shè)計(jì)、定義和規(guī)劃計(jì)算架構(gòu),推動(dòng)多層級(jí)技術(shù)的融合已成為當(dāng)前的最佳可行方案。
狹義的異構(gòu)融合計(jì)算,指的是多種不同類型、不同架構(gòu)處理器組成的計(jì)算架構(gòu)。廣義的異構(gòu)融合計(jì)算,是指通過將處理器、芯片、硬件設(shè)備、操作系統(tǒng)、編程框架、編程語言、網(wǎng)絡(luò)通信協(xié)議、數(shù)據(jù)中心等不同層次、不同類型的計(jì)算技術(shù)進(jìn)行整合優(yōu)化,以實(shí)現(xiàn)多種異構(gòu)計(jì)算資源的高效利用。本白皮書旨在探討異構(gòu)融合計(jì)算技術(shù)的內(nèi)在機(jī)制、應(yīng)用場(chǎng)景和發(fā)展趨勢(shì),通過概述計(jì)算領(lǐng)域相關(guān)概念,回顧計(jì)算架構(gòu)發(fā)展歷程,分析了異構(gòu)計(jì)算技術(shù)的發(fā)展現(xiàn)狀及面臨的主要問題,從硬件層面(芯片級(jí)、設(shè)備級(jí))、軟件層面(操作系統(tǒng)、編程框架)、系統(tǒng)層面分別提出了異構(gòu)融合計(jì)算技術(shù)的探索方案及演進(jìn)方向,引出了異構(gòu)融合計(jì)算技術(shù)的發(fā) 展趨勢(shì),并介紹了異構(gòu)融合計(jì)算領(lǐng)域相關(guān)的實(shí)踐案例。同時(shí),指出了異構(gòu)融合計(jì)算發(fā)展面臨的挑戰(zhàn):一是,處理器架構(gòu)的限制,可擴(kuò)展性和靈活性難以滿足,計(jì)算孤島問題凸顯;二是,當(dāng)前的編程框架、編程語言、及其他編譯 /調(diào)試工具,不足以支撐高效的異構(gòu)代碼編寫、優(yōu)化和管理;三是,系統(tǒng)集成和互操作性技術(shù)要求高,難以構(gòu)建統(tǒng)一的系統(tǒng)視圖以支持跨平臺(tái)的開發(fā)和部署。
在此,對(duì)參與本白皮書編制的各位專家表示衷心的感謝。我們相信,白皮書將為讀者提供一個(gè)新的視角和思考方式,希望讀者能夠結(jié)合實(shí)際應(yīng)用場(chǎng)景,對(duì)異構(gòu)融合計(jì)算相關(guān)技術(shù)進(jìn)行深入探索和研究。白皮書內(nèi)容,不可避免會(huì)存在諸多不足,懇請(qǐng)各界專家批評(píng)指正。
2.4 “異構(gòu)融合計(jì)算”定義
Intel于2019年提出“超異構(gòu)計(jì)算”的概念,強(qiáng)調(diào)了超異構(gòu)計(jì)算涉及的三個(gè)方面:系統(tǒng)架構(gòu)、工藝和封裝,以及統(tǒng)一的異構(gòu)計(jì)算軟件。但在最核心的系統(tǒng)架構(gòu)層次, Intel僅僅只強(qiáng)調(diào)了“多”,并沒有進(jìn)一步對(duì)超異構(gòu)計(jì)算進(jìn)行闡述,以及設(shè)計(jì)實(shí)現(xiàn)的進(jìn)一步細(xì)節(jié)說明。
“異構(gòu)融合計(jì)算”是一個(gè)全新的概念,目前行業(yè)還沒有形成統(tǒng)一的定義。從概念上講,“異構(gòu)融合計(jì)算”屬于異構(gòu)計(jì)算的范疇,可以定義為異構(gòu)計(jì)算的一種高階形態(tài)。
本白皮書認(rèn)為,狹義的“異構(gòu)融合計(jì)算”,是一種新的計(jì)算架構(gòu)和方法,通過融合CPU和多種不同類型、不同架構(gòu)的加速處理器,以實(shí)現(xiàn)更大規(guī)模、更高性能、更加高效的計(jì)算。而 廣義的“異構(gòu)融合計(jì)算”,則通過不同層次、不同類型的技術(shù)整合,來實(shí)現(xiàn)異構(gòu)融合計(jì)算資源的高效利用。
廣義的異構(gòu)融合計(jì)算,主要包含以下幾方面內(nèi)容:
超異構(gòu):系統(tǒng)中異構(gòu)處理器的數(shù)量為三個(gè)或三個(gè)以上。“一個(gè)稱為同構(gòu),兩個(gè)稱為異構(gòu),三個(gè)或三個(gè)以上稱為超異構(gòu)”。超異構(gòu)是異構(gòu)融合計(jì)算的前提。
硬件融合 :強(qiáng)調(diào)不同處理器之間的深度協(xié)同(指單個(gè)工作任務(wù)由兩個(gè)或兩個(gè)以上處理器協(xié)作處理)和深度融合(指某個(gè)具體工作任務(wù)可以跨 CPU、 GPU和 DSA等不同類型處理器運(yùn)行,也可以跨同類型中的不同架構(gòu)處理器運(yùn)行)。各處理器之間可 以通過高速總線或高性能網(wǎng)絡(luò)進(jìn)行通信和數(shù)據(jù)傳輸,通過更高層次的系統(tǒng)劃分和任務(wù)調(diào)度實(shí)現(xiàn)協(xié)同計(jì)算。
軟件融合:面向異構(gòu)(硬件)計(jì)算環(huán)境,將操作系統(tǒng)、應(yīng)用軟件、編程模型、編程語言、通信協(xié)議、數(shù)據(jù)等技術(shù)資源進(jìn)行融合和優(yōu)化,提供統(tǒng)一的軟件運(yùn)行環(huán)境和編譯開發(fā)工具,旨在降低異構(gòu)融合計(jì)算系統(tǒng)的復(fù)雜度,實(shí)現(xiàn)計(jì)算任務(wù)的跨平臺(tái)運(yùn)行。
系統(tǒng)融合:通過合理地任務(wù)分配和資源調(diào)度,異構(gòu)融合計(jì)算系統(tǒng)可以實(shí)現(xiàn)更高的計(jì)算性能和更好的計(jì)算效率。
傳統(tǒng)異構(gòu)計(jì)算,特指CPU+xPU的計(jì)算架構(gòu)。異構(gòu)融合計(jì)算與傳統(tǒng)異構(gòu)計(jì)算的差異點(diǎn)在于:傳統(tǒng)異構(gòu)計(jì)算僅有一 種加速處理器類型,并且僅關(guān)注 CPU和加速處理器的協(xié)同;而異構(gòu)融合計(jì)算則具有兩種或兩種以上的加速處理器類型,并且需要重點(diǎn)關(guān)注所有處理器之間的協(xié)同和融合,以及硬件與軟件之間的融合、系統(tǒng)內(nèi)部及系統(tǒng)之間的融合問題。
2.5 “異構(gòu)融合計(jì)算”案例:通用超異構(gòu)處理器
矩向科技定義了一款新的處理器芯片類型:通用超異構(gòu)處理器(GP-HPU, General Purpose Hyper-heterogeneous Processing Unit)。
通用超異構(gòu)處理器GP-HPU,通過NOC總線,把眾多的計(jì)算節(jié)點(diǎn)連接成一個(gè)芯片系統(tǒng)。從功能視角看,GP-HPU和SOC類似;在架構(gòu)上GP-HPU和SOC的主要區(qū)別在于每個(gè)加速處理器需要“圖靈完備”,成為一個(gè)可獨(dú)立工作的小系統(tǒng),可直接和其他小系統(tǒng)進(jìn)行交互且不需要主CPU的參與。每一個(gè)處理器作為一個(gè)小規(guī)模的類SOC的小系統(tǒng),再通過分布式架構(gòu),可構(gòu)建規(guī)模數(shù)量級(jí)提升的大系統(tǒng),也非常有利于芯片系統(tǒng)的平行擴(kuò)展。
系統(tǒng)任務(wù)主要分為三類:
(1)不經(jīng)常變化的任務(wù),歸屬基礎(chǔ)設(shè)施層,由DPU覆蓋;
(2)業(yè)務(wù)應(yīng)用加速部分,歸屬到彈性應(yīng)用加速層,由GPU等業(yè)務(wù)加速芯片覆蓋;
(3)業(yè)務(wù)應(yīng)用不可加速部分,以及其他沒有加速支持的任務(wù),歸屬到業(yè)務(wù)應(yīng)用層,由CPU覆蓋。從功能視角,GP-HPU,可以看作是CPU、GPU和DPU功能的集合。
但GP-HPU不是這三個(gè)芯片功能的簡(jiǎn)單集成,通過不同類型處理器的深度合作,才能實(shí)現(xiàn)“團(tuán)隊(duì)協(xié)作,整體最優(yōu)”,實(shí)現(xiàn)性能和靈活性的兼顧。最后,是系統(tǒng)層次。通用能力的構(gòu)建是大算力芯片成功的關(guān)鍵。如何實(shí)現(xiàn)異構(gòu)融合計(jì)算的通用能力,是異構(gòu)融合計(jì)算能否落地的關(guān)鍵。
CPU、GPU和DPU三顆芯片,通常來自于不同的公司,實(shí)現(xiàn)三者間的深度協(xié)同比較難。在單芯片內(nèi)部實(shí)現(xiàn)異構(gòu)融合計(jì)算,是相對(duì)可行的路徑。此外,受限于單芯片所能容納的計(jì)算規(guī)模上限,目前的單芯片異構(gòu)融合計(jì)算,比較適合邊緣等相對(duì)輕量的計(jì)算場(chǎng)景,不太適合云計(jì)算等相對(duì)重量的計(jì)算場(chǎng)景。
GP-HPU,經(jīng)過“通用性”能力的強(qiáng)化設(shè)計(jì),可以廣泛使用在邊緣服務(wù)器、AI推理服務(wù)器、存儲(chǔ)服務(wù)器、企業(yè)云服務(wù)器等輕量級(jí)場(chǎng)景,還可以使用在智能座艙、MEC接入設(shè)備、低速無人車等場(chǎng)景。
3、個(gè)人貢獻(xiàn)
作為矩向科技的創(chuàng)始人兼CEO,也作為《軟硬件融合》圖書和公眾號(hào)的主筆,我深度的參與到白皮書的策劃和撰寫工作中。
2022年底,跟工信部電子五所楊老師交流關(guān)于異構(gòu)計(jì)算的挑戰(zhàn)和未來發(fā)展趨勢(shì),所思所想,同頻共振。針對(duì)異構(gòu)算力多樣性的挑戰(zhàn),電子五所提出了研究課題“異構(gòu)計(jì)算融合技術(shù)發(fā)展研究”,最終落地為《異構(gòu)融合計(jì)算技術(shù)白皮書》。春節(jié)過后,我就開始積極地參與到白皮書的策劃和編寫工作中。到這次白皮書的定稿發(fā)布,前后經(jīng)歷了大半年的時(shí)間。白皮書也廣泛凝聚共識(shí),得到了國內(nèi)眾多知名高校和企業(yè)在技術(shù)和案例等方面的大力支持。
個(gè)人最主要的貢獻(xiàn)是提出“異構(gòu)融合計(jì)算”的概念,并細(xì)化和完善其定義和內(nèi)涵。這一概念得到了與會(huì)的各位專家一致贊同?!爱悩?gòu)計(jì)算融合”是一個(gè)現(xiàn)象,一個(gè)過程;而“異構(gòu)融合計(jì)算”則是一種創(chuàng)新的理念,也是一種全新的計(jì)算架構(gòu)和計(jì)算技術(shù),同時(shí)還是落地的解決方案。異構(gòu)融合計(jì)算,通過融合CPU和多種不同類型不同架構(gòu)的加速處理器,以實(shí)現(xiàn)更大規(guī)模、更高性能、更加高效的計(jì)算。異構(gòu)融合計(jì)算繼承自異構(gòu)計(jì)算,并向前繼續(xù)發(fā)展,成為一種新的計(jì)算架構(gòu)。異構(gòu)融合需要不同層次不同類型的軟硬件技術(shù)的深度協(xié)作,才能最終實(shí)現(xiàn)異構(gòu)融合的廣泛落地。
白皮書上述相關(guān)內(nèi)容,歡迎各界專家批評(píng)指正。
4、異構(gòu)融合計(jì)算的必然發(fā)展趨勢(shì)
一方面,業(yè)務(wù)需求驅(qū)動(dòng)。以人工智能為例,隨著BERT、GPT等大模型的快速發(fā)展,從2018年到2023年,算力需求增長(zhǎng)進(jìn)一步加速,平均每2個(gè)月就翻一番。AI算力需求快速增長(zhǎng),算力芯片難以支撐:?jiǎn)蜧PU芯片逐漸性能極限;必須通過Scale Out的擴(kuò)大計(jì)算集群規(guī)模的方式提升算力;隨之而來的,AI計(jì)算成本越來越難以承受。
另一方面,工藝和封裝支撐。工藝進(jìn)步,單芯片容納的設(shè)計(jì)規(guī)模越來大;Chiplet封裝,使得在單芯片層次,可以構(gòu)建規(guī)模數(shù)量級(jí)提升的超大系統(tǒng)。
業(yè)務(wù)需求驅(qū)動(dòng),以及底層工藝和封裝支撐,一定需要系統(tǒng)架構(gòu)層次的創(chuàng)新。
從同構(gòu)到異構(gòu),從異構(gòu)(單異構(gòu)、多異構(gòu))到異構(gòu)融合,系統(tǒng)架構(gòu)創(chuàng)新,是架構(gòu)從簡(jiǎn)單到復(fù)雜、繼承并不斷發(fā)展的過程。
5、異構(gòu)融合計(jì)算的廣泛應(yīng)用場(chǎng)景
5.1 復(fù)雜計(jì)算系統(tǒng)
微觀上,復(fù)雜計(jì)算系統(tǒng)需要實(shí)現(xiàn)軟件和硬件的解耦。通過虛擬化,實(shí)現(xiàn)軟硬件解耦,這樣,軟件就可以無縫地跨平臺(tái)自由遷移。
微觀上,復(fù)雜計(jì)算系統(tǒng),需要在一個(gè)硬件系統(tǒng)上支持多個(gè)軟件系統(tǒng)。通過虛擬化,實(shí)現(xiàn)計(jì)算資源的切分、池化和重組,構(gòu)建形態(tài)各異的各種邏輯計(jì)算平臺(tái),供VM、容器等軟件實(shí)體使用。
微觀上,硬件計(jì)算平臺(tái)需要支持多種計(jì)算資源,并且需要支持這些計(jì)算資源的協(xié)同和融合。在CPU同構(gòu)計(jì)算時(shí)代,通過VT-x/VT-d等技術(shù)實(shí)現(xiàn)處理器的完全硬件虛擬化非常成熟,但如果增加了各種異構(gòu)的處理器,并且要考慮這些異構(gòu)處理器的架構(gòu)兼容性,以及它們之間的協(xié)同和融合,則是非常挑戰(zhàn)的事情。
宏觀上,復(fù)雜計(jì)算是①基于一組硬件服務(wù)器的、②運(yùn)行多個(gè)宏系統(tǒng)的、③動(dòng)態(tài)的、④交叉混合計(jì)算。
總結(jié)一下,復(fù)雜計(jì)算需要:
支持虛擬化、服務(wù)化、冷/熱遷移,從而實(shí)現(xiàn)單設(shè)備多系統(tǒng)共存,以及跨設(shè)備的多個(gè)宏系統(tǒng)的協(xié)同/融合。
單個(gè)硬件支持多個(gè)不同規(guī)格系統(tǒng)。
單個(gè)硬件計(jì)算資源的多樣性,要考慮資源的切分、池化和重組,還需要考慮不同資源間的協(xié)同和融合。
單個(gè)硬件集群支持多個(gè)宏系統(tǒng)集群,并且這些宏系統(tǒng)集群交叉混布。
數(shù)以萬計(jì)甚至百萬級(jí)的計(jì)算設(shè)備規(guī)模,完全動(dòng)態(tài)的、非常頻繁的軟硬件配置變更。
微觀上,不同系統(tǒng)的資源需求千差萬別;宏觀上,數(shù)以百萬計(jì)的系統(tǒng),總的資源需求趨向于確定。
硬件需要足夠的一致性(盡可能少的型號(hào)/規(guī)格),在此基礎(chǔ)上實(shí)現(xiàn)具體系統(tǒng)運(yùn)行平臺(tái)的差異性。
云計(jì)算幾乎是最復(fù)雜的計(jì)算場(chǎng)景,復(fù)雜計(jì)算場(chǎng)景從云計(jì)算場(chǎng)景提取各種本質(zhì)的計(jì)算特征和挑戰(zhàn),把它融入底層軟硬件設(shè)計(jì)和優(yōu)化當(dāng)中,反過來再落地到云計(jì)算,以及其他更多的復(fù)雜計(jì)算場(chǎng)景:
從計(jì)算的位置來說,復(fù)雜計(jì)算包括云計(jì)算、邊緣計(jì)算和自動(dòng)駕駛等超級(jí)終端場(chǎng)景;
從計(jì)算位置來說,超算和云計(jì)算是相似的,但兩者的計(jì)算訴求不同:超算更注重性能,云計(jì)算更注重成本。目前,兩者在不斷地侵入對(duì)方的“領(lǐng)地”,超算和云計(jì)算在不斷地融合。
智能計(jì)算,跟云計(jì)算、超算等不屬于同層次的計(jì)算。智能計(jì)算是業(yè)務(wù)應(yīng)用,智能計(jì)算可以在云、邊、端或超算領(lǐng)域。
5.2 基于異構(gòu)融合的復(fù)雜計(jì)算場(chǎng)景
5.2.1 場(chǎng)景一:云計(jì)算
目前,對(duì)算力的需求越來越高,通過Scale Out擴(kuò)大集群規(guī)模的方式提升性能代價(jià)高昂,治標(biāo)不治本。要想本質(zhì)地提高性能,還是要回到Scale Up方式。
DPU是目前數(shù)據(jù)中心的第三顆重要的芯片,通過在服務(wù)器設(shè)備級(jí)實(shí)現(xiàn)CPU眾多工作任務(wù)的卸載和加速,以此來實(shí)現(xiàn)整個(gè)服務(wù)器級(jí)別的Scale Up:
從架構(gòu)角度,CPU、GPU和DPU三芯片方案是多異構(gòu)計(jì)算架構(gòu),很難實(shí)現(xiàn)不同加速處理器之間的協(xié)同計(jì)算。
從現(xiàn)實(shí)角度,CPU、GPU和DPU三顆芯片,通常來自于不同的公司,實(shí)現(xiàn)三者間的高效交互和深度協(xié)同比較難。
隨著Chiplet的流行和能力增強(qiáng),通過架構(gòu)重構(gòu)和多DIE集成,進(jìn)一步優(yōu)化數(shù)據(jù)交互,并協(xié)同不同處理單元的任務(wù)分工,實(shí)現(xiàn)多個(gè)異構(gòu)資源的高效協(xié)作,在單芯片內(nèi)部實(shí)現(xiàn)異構(gòu)融合計(jì)算,是相對(duì)可行的路徑。
5.2.2 場(chǎng)景二:邊緣計(jì)算
在不考慮Chiplet多DIE封裝的支持下,受限于單DIE單芯片所能容納的計(jì)算規(guī)模上限,目前的單芯片異構(gòu)融合計(jì)算,比較適合邊緣等相對(duì)輕量的計(jì)算場(chǎng)景,不太適合云計(jì)算等相對(duì)重量的計(jì)算場(chǎng)景。
傳統(tǒng)的服務(wù)器以CPU為中心,然后增加高性能網(wǎng)卡、加速處理器和PCIE總線擴(kuò)展卡等其他組件,成本非常高。并且,受限于多芯片交互,綜合性能也會(huì)有影響。異構(gòu)融合處理器,可以實(shí)現(xiàn)邊緣等輕量計(jì)算場(chǎng)景的單芯片解決方案,可以實(shí)現(xiàn)最極致的性能的同時(shí),最低的成本。并且在功耗和物理空間方面都有非常大的優(yōu)勢(shì)(功耗和物理空間優(yōu)勢(shì),可以實(shí)現(xiàn)高密度計(jì)算,進(jìn)一步優(yōu)化成本,并進(jìn)一步降低對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施的要求)。
5.2.3 場(chǎng)景三:自動(dòng)駕駛等超級(jí)終端
上圖是BOSCH給出的汽車電氣架構(gòu)演進(jìn)示意圖。從模塊級(jí)的ECU到集中相關(guān)功能的域控制器,再到完全集中的車載計(jì)算機(jī)。
未來的智能汽車,越來越像一臺(tái)服務(wù)器。
汽車越來越像服務(wù)器,因此目前汽車技術(shù)的發(fā)展,本質(zhì)上是云計(jì)算數(shù)據(jù)中心的各種技術(shù)的不斷下沉,比如,虛擬化、SOA、軟件定義等技術(shù)。如上圖:在DCU時(shí)代,一個(gè)DCU支持一個(gè)系統(tǒng);但在CCU時(shí)代,通過虛擬化,實(shí)現(xiàn)一個(gè)芯片支持多個(gè)不同類型的系統(tǒng),實(shí)現(xiàn)兼容現(xiàn)有軟件的同時(shí),還可以實(shí)現(xiàn)更高效的交互。并且,單芯片的綜合成本也是最低。
隨著AI大模型在自動(dòng)駕駛算法中逐漸落地,汽車CCU對(duì)算力的需求水漲船高。汽車CCU芯片也是異構(gòu)融合計(jì)算非常典型的應(yīng)用領(lǐng)域。
以NVIDIA THOR為例:THOR設(shè)計(jì)思路是完全的“終局思維”,相比BOSCH給出的一步步的演進(jìn)的思路,跨越集中式的車載計(jì)算機(jī)和云端協(xié)同的車載計(jì)算機(jī),直接到達(dá)云端融合的車載計(jì)算機(jī)。云端融合的意思是服務(wù)可以動(dòng)態(tài)的、自適應(yīng)的運(yùn)行在云或端,方便云端的資源動(dòng)態(tài)調(diào)節(jié)。THOR采用的是跟云端完全一致的計(jì)算架構(gòu):Grace-next CPU、Ampere-next GPU以及Bluefield DPU,硬件上可以做到云和端的融合。
5.2.4 場(chǎng)景四:超算HPC
基于CPU計(jì)算,實(shí)現(xiàn)千萬億次(P級(jí)超算)超算已經(jīng)非常困難。從天河1A開始,很多超算逐漸開始采用異構(gòu)計(jì)算架構(gòu)。而到了百億億次(E級(jí)超算),異構(gòu)計(jì)算已經(jīng)是必選項(xiàng),所有的超算架構(gòu)均采用異構(gòu)計(jì)算。但是,異構(gòu)計(jì)算也有瓶頸,面向下一代十萬億億次超算(Z級(jí)超算),異構(gòu)計(jì)算已經(jīng)無法滿足要求,大家把目光都投向了異構(gòu)融合計(jì)算。
拭目以待!
5.2.5 場(chǎng)景五:智能計(jì)算
智能計(jì)算,是業(yè)務(wù)應(yīng)用層次的計(jì)算??梢猿休d到云計(jì)算、邊緣計(jì)算、終端計(jì)算,或者超算。但考慮到隨著大模型的發(fā)展,AI算力要求越來越高,有必要針對(duì)AI計(jì)算,專門構(gòu)建高效的計(jì)算架構(gòu)和系統(tǒng)。
隨著GPU的性能提升放緩,而AI算力需求仍然2個(gè)月翻番,所以只能通過擴(kuò)規(guī)模的方式提升整體算力。但受阿姆達(dá)爾定律影響,這種方式也會(huì)逐漸到底。
并且,傳統(tǒng)以CPU為中心的服務(wù)器計(jì)算架構(gòu),存在一些問題:I/O帶寬低、路徑長(zhǎng);CPU是性能的瓶頸;擴(kuò)展性差;等等。
要想顯著的提升AI計(jì)算的性能,需要芯片層次異構(gòu)融合優(yōu)化:
Scale Up:最本質(zhì)的,提升單節(jié)點(diǎn)性能。在工藝成本等因素約束下,提升性能只能從系統(tǒng)架構(gòu)/微架構(gòu)方面挖潛(異構(gòu)融合架構(gòu))。
Scale Out:擴(kuò)大集群規(guī)模,需要增強(qiáng)集群的內(nèi)聯(lián)交互;更高的帶寬,更高性能的網(wǎng)絡(luò)。
通用性:AI算法快速迭代,每家算法差異性巨大。芯片需要足夠通用性,適配算法的差異性和快速迭代。
成本優(yōu)化:GPU性能極限,ChatGPT需要上萬張GPU卡,成本高昂。成本降低的手段:通用、集成度、擴(kuò)展性等。
5.3 綜合計(jì)算場(chǎng)景
5.3.1 汽車智能網(wǎng)聯(lián)
清華李克強(qiáng)院士,給出智能網(wǎng)聯(lián)汽車“中國方案”,其主旨要義是車路云深度協(xié)同的一體化。異構(gòu)融合計(jì)算,可以實(shí)現(xiàn)云和邊緣側(cè)的大算力芯片,還可以實(shí)現(xiàn)終端側(cè)的大算力單芯片。同時(shí),需要考慮復(fù)雜計(jì)算場(chǎng)景的各種要求,從芯片架構(gòu)層次,原生的支持云、邊、端深度協(xié)同。
5.3.2 云網(wǎng)邊端融合
汽車智能網(wǎng)聯(lián)是一個(gè)具體場(chǎng)景,把場(chǎng)景泛化,還有很多場(chǎng)景,如手機(jī)移動(dòng)終端、元宇宙XR、數(shù)字工廠、數(shù)字城市、數(shù)字生活等,都需要終端和云端、邊緣端的深度協(xié)同。因此,站在計(jì)算的角度,最終云網(wǎng)邊端需要深度融合成“一個(gè)”超級(jí)大系統(tǒng),來滿足幾乎“所有”計(jì)算需求。
云、網(wǎng)、邊、端不同計(jì)算的位置,是我們?nèi)藶閯澐值?,不管在什么位置,它都是一個(gè)符合計(jì)算機(jī)架構(gòu)的計(jì)算設(shè)備。因此,我們可以構(gòu)建一個(gè)統(tǒng)一的異構(gòu)融合計(jì)算的架構(gòu),來實(shí)現(xiàn)云網(wǎng)邊端計(jì)算和開發(fā)軟件的一致,來實(shí)現(xiàn)計(jì)算任務(wù)可以隨時(shí)跨平臺(tái)運(yùn)行,來實(shí)現(xiàn)云網(wǎng)邊端的深度融合。
6?凝聚共識(shí),共謀發(fā)展
6.1 構(gòu)建異構(gòu)融合開放計(jì)算生態(tài)
一方面,按照處理器靈活性,從左向右,處理器的類型越多,架構(gòu)的數(shù)量和種類也越多。不同類型、不同領(lǐng)域、不同場(chǎng)景、不同廠家、不同架構(gòu)的處理器,會(huì)導(dǎo)致處理器架構(gòu)的完全碎片化;另一方面,處理器需要支持?jǐn)?shù)據(jù)中心內(nèi)部的集群計(jì)算,還需要支持跨云網(wǎng)邊端的融合計(jì)算,這對(duì)處理器架構(gòu)一致性提出了很高的要求。兩方面的挑戰(zhàn),在異構(gòu)融合計(jì)算時(shí)代,構(gòu)建統(tǒng)一的計(jì)算架構(gòu)變得非常的困難。
需要在行業(yè)內(nèi)廣泛凝聚共識(shí),實(shí)現(xiàn)統(tǒng)一的系統(tǒng)架構(gòu)接口,才能實(shí)現(xiàn)多樣性計(jì)算資源的協(xié)同,從而實(shí)現(xiàn)資源的切分、池化和共享,以及平臺(tái)的融合。
異構(gòu)融合計(jì)算時(shí)代,不存在封閉的計(jì)算生態(tài)。要想成功,開放標(biāo)準(zhǔn)的架構(gòu)和生態(tài),是某個(gè)具體公司和整個(gè)產(chǎn)業(yè)成功的必由發(fā)展之路。
6.2 抓住技術(shù)變革的歷史時(shí)機(jī)
大算力芯片最核心的能力是通用性,而通用計(jì)算存在的基礎(chǔ)是“二八定律”無處不在:隨著系統(tǒng)的擴(kuò)大,會(huì)逐漸沉淀許多共性的計(jì)算任務(wù)。依據(jù)二八定律,對(duì)三個(gè)階段進(jìn)行定性的分析:
在CPU同構(gòu)計(jì)算階段,100%工作由CPU完成;
在GPU異構(gòu)階段,80%工作由GPU完成,CPU只完成剩余的20%的工作;
異構(gòu)融合計(jì)算階段,80%工作由各類更高效的DSA完成,GPU只完成剩余20%工作的80%,即16%的工作,剩余的4%交給CPU。
CPU是上世紀(jì)70年代發(fā)明的,國內(nèi)最早的龍芯CPU是2002年投片成功的,在CPU領(lǐng)域國內(nèi)至少晚了30年時(shí)間。GPGPU是2006年NVIDIA發(fā)布的Tesla架構(gòu)GPU,國內(nèi)則是近幾年才有諸多初創(chuàng)公司開始在此領(lǐng)域發(fā)力的,晚了差不多15年時(shí)間。
第一代通用計(jì)算是CPU同構(gòu),成就了Intel的王者地位;第二代通用計(jì)算是GPU異構(gòu),隨著AI大模型的火爆NVIDIA市值超過了10000億美金,遠(yuǎn)超Intel、AMD和高通的總和。第一代和第二代通用計(jì)算CPU、GPU,我們已經(jīng)落后,目前國內(nèi)有眾多公司重?fù)?dān)在肩,在拼命追趕。
在一個(gè)非常成熟的領(lǐng)域,要想追趕先進(jìn),非常的困難。但在行業(yè)重大技術(shù)變革期,就是趕超的絕好時(shí)機(jī)。
異構(gòu)融合計(jì)算的發(fā)展機(jī)會(huì),使得在計(jì)算機(jī)體系結(jié)構(gòu)和算力芯片的架構(gòu)創(chuàng)新方面,國內(nèi)首次有了和國際先進(jìn)水平站在同一個(gè)起跑線的機(jī)會(huì)。歷史機(jī)遇稍縱即逝,我們需要站在國家戰(zhàn)略的高度,快馬加鞭,加大投入。
7、白皮書下載
工信部電子五所官方下載:
#白皮書獲取方式# 發(fā)送“獲取《異構(gòu)融合計(jì)算技術(shù)白皮書》”至郵箱: saibao2022@163.com
“軟硬件融合”公眾號(hào)下載:
公眾號(hào)回復(fù)“白皮書”下載。