沐曦集成電路(上海)有限公司 CEO陳維良
近日,在蘇州高新區(qū)舉辦的中國集成電路設計創(chuàng)新大會暨 IC 應用博覽會(ICDIA 2021)上,沐曦集成電路(上海)有限公司 CEO陳維良帶來主題為《高性能GPU的性能與挑戰(zhàn)》的精彩分享,以下為報告全文:
我在GPU行業(yè)20年,GPU架構IP、產品化各方面都做過,也見證了GPU的發(fā)展歷史。換句話說其實我以前挺不喜歡GPU的,GPU最開始的應用做游戲場景的繪制,做家長特別狠游戲,所以我是在后來看到GPU發(fā)展到另外一個方向的時候就更深深喜歡上了GPU。
GPU從游戲場景的繪制發(fā)展到現在一個通用計算的處理器,所以它的重要性大大的提高了,非常榮幸今天有機會和大家分享一下我20來年對GPU的理解。報告分成三個部分,第一個部分談談高性能GPU的機遇,介紹一下我理解的高性能GPU的挑戰(zhàn),然后在匯報一下我個人的思考。
機遇來自于需求,我們先建立起一個共識。我們今天是處于大數據時代,一個智能計算的時代,很重要的理念就是算力很重要,算力是生產力。有一張圖簡單的表述算力的重要性,可以看到很強的相關性,就是人均算力和人均GDP的相關性,發(fā)達國家如美國人均GDP非常高我們都知道,人均算力非常高。
換句話說在未來進入大數據時代提高人均算力對我們國家非常重要,所以我想總結三句話:
第一,高性能計算加上機器學習是我們人類認知世界的望遠鏡。
第二,高性能計算加機器學習是我們數字經濟發(fā)展的發(fā)動機。
第三,GPU的重要性,GPU最適合做高性能計算和機器學習的。
我稍微展開一下,我們人類探索這個世界經過了不同時代,不同時代科學技術發(fā)展的不同程度有不同的方式。以前靠觀察,我們提出很多理論,到今天或者說近十來年我們很重要的一件事情就是積累了大量的數據,我們需要通過大量的計算讓這些數據產生它的價值。
計算這件事情從左邊這張圖看得到,我們實際上對于很多理論的構建都已經非常完整了,但是在應用到實踐的時候解決真正的實際問題的時候,你會發(fā)現計算量非常龐大,這里有個概念叫維數災難,變量太多,計算的情況特別復雜,就算我們用現在最強的超級計算機都要花無法忍受的工程上的結果解決工程上的問題,右邊這張圖給我們提出一個,換句話說到今天我們利用機器學習,利用大數據,我們通過學習建模更容易的去降維,去解決實際的問題,所以說今天我們得出一個關鍵性的結論就是大數據計算或者說AI對我們研究實際問題,解決實際問題提供了一個很大的幫助。
剛剛回到前面講,高性能計算加AI為什么是望遠鏡,我們可以通過這種方式解決更多的問題看得更遠。舉個例子,比較復雜計算過去的收斂,下來可以通過我們構建一種神經網絡去做相應的網絡的訓練,解決一些方程式的解法,比較笨的方法達不到的效果,所以在大數據時代,數據暴爭的時代,怎么樣讓數據變的有價值,很重要的一點我們需要強大的算力,所以算力是可以比喻成發(fā)動機,讓我們的數據作為燃料產生它的價值,解決我們實際的問題,從右邊的兩張圖上看得出來,我們過去這十來年數據的增長速度,基本上呈指數的增長。
算力只考慮傳統(tǒng)的處理器GPU,算力按照摩爾的定律是呈線性增長的,這張圖上表現出來的算力右邊其實是GPU,左邊是CPU。
所以GPU在算力上面具有巨大的優(yōu)勢,為什么?主要體現在GPU發(fā)展歷史上面,過去GPU是專用的處理器后來變的通用,通用以后通用可編程,通過編程的問題解決問題,GPU和CPU差別上可以明顯的看出來,左邊是CPU的體系結構,里面的計算的運算單元非常少的,只有少數并行跑幾個線程,主要的優(yōu)勢體現在非??斓姆磻脱訒r。
右邊是代表的GPU的架構,左邊基本上看不到的那些小方塊橙色的,就是指令的派遣,右邊一大堆的藍色的方塊組合在一起,這些小藍色的方塊都是運算單元,換句話說里面有上千的線程可以跑,非常多的數據。
所以當算力受到功耗限制的時候,是單位功耗能夠產生算力非常重要的,GPU的并行性這方面有巨大的優(yōu)勢。
可以看得到,比較流行的,大家用得最多的,不管是分子建模還是高性能計算,流體力學很多方面重要的應用程序或者說工業(yè)軟件,排前20的,基本上支持GPU的計算,所以這個是比較重大的異構計算的趨勢。
同時,AI現在是一個很火的概念,那GPU對AI架構的支持現在非常成熟了,可以說目前AI的應用里面不管是訓練還是推理,絕大部分還是GDP在支持它的運算力。
從全球的超級計算機的結構上看,我們國家在超級計算機上面的投入非常大,但我們國家的超級計算機有一個特點,這張圖看得出來,排名前五的超級計算及能效高的美國的超算異構的結構,CPU加上GPU,CPU提供一個控制的作用,任務分配的作用,協(xié)調的作用,而95%以上的算力按高性能的GPU提供的,我們國家的太湖之光全市CPU,從功耗用的核心數大家看得出來非常明顯,異構的優(yōu)勢。
不信的是高性能的GDP到目前為止還是被國外的兩家公司壟斷,所以在核心算力受制于人的情況下其實產生了很多的風險和問題,這也是我們要解決的問題。這個是基于挑戰(zhàn)在哪里,是需要帶來的機遇,挑戰(zhàn)是經過簡單的總結把它歸納成三句話:
第一它難度非常大,
第二它的周期非常長,
第三投入非常大。
難度為什么大?左邊這個圖是非常簡單的一種框圖,GPU里面綠色的這些框框就是我們成為的子系統(tǒng),一個GPU里面的行業(yè)IP這個和占了GPU80%以上的面積,也是里面最復雜的,里面很多子系統(tǒng),每個子系統(tǒng)也是超級復雜的,架構的復雜度需要長期的經驗積累,GPU的架構加上復雜的IP設計最后變成高性能GPU的SOC。
可見這里面堆積的數目500多億,它提供的算力,消耗的功耗,這個里面的設計復雜度非常高的,既有系統(tǒng)性的,又有復雜的IP和算法,做成芯片以后,一塊GPU的算力就算這樣在雙精度浮點的情況下也就是十來個T的算力。
要達到超算的水平,P級E級的水平需要很多的互聯(lián),所以多卡的互聯(lián)也是一個巨復雜的事情,再加上GPU本身,軟件站非常深,提供的靈活性很大程度上來自于功夫,來自于軟件站的復雜程度,GPU從上到下的軟件,不光有驅動,還有編譯器有豐富的庫,這樣巨復雜的軟硬件系統(tǒng)到了不同的落地場景,針對不同的落地場景進行優(yōu)化,整個大的系統(tǒng)難度非常大的,周期非常長了。
一塊GPU從立項到上市最少需要3-5年,IP設計、芯片的設計、測試、軟件的成熟,診斷不同的應用場景和生態(tài),需要構建這么復雜的軟件系統(tǒng),所以周期非常長的。
當然需要巨大的投入,這張圖只是從一個本身硬件芯片設計和溜片帶來的成本,一次性投入再加上現在要最好的工藝能效比這樣的紅線非常陡峭的。換句話說整個的成本不管是一次性成本還是生產出來之后上量以后的成本都是增長非常的快的,這張圖是從研發(fā)成本角度看,尤其是右邊這個圖特別有意義,不同的制成的情況下,對大一型芯片的投入,可以看到納米以后,一顆芯片幾十億人民幣的投入。
在這么好的機會的情況下有這么大的需求,尤其是國家戰(zhàn)略性的產品,面對這樣的挑戰(zhàn)我們怎么突破和創(chuàng)新,最重要的一點突破非常好的時代和非常好的機會去從零到一的進行突破。
強烈國產替代的需求尤其是供應鏈不安全,這次從國家戰(zhàn)略的層面是一個巨大的風險,所以給了我們很多的機會去尋找一定的市場,從0-1突破,0-1以后怎么從0-100。
我們可以看到GPU整個發(fā)展過程當中架構一直都在變,所以從最開始的時候渲染游戲只是一個所謂的固定流水線,不具有編程性,到它繪制非常復雜的場景,渲染真實感的場景,所以進行編程,編的靈活,到后來進行大數據計算,我們必須著名的,英偉達加入制成的情況下,對里面的這個,專門對神經網絡進行處理,不斷跟自己的架構,不斷引入自己的算力,從這個角度來講不同的計算,不同的指令能效比不一樣的,基于應用的一種可重構的GPU架構比較有希望的方向或者可以創(chuàng)新的點。
從這個角度來講重構這件事情本身也是有不同的顆粒度,而且有很多地方可以重構不管是運算單元還是里面的數據流向還是里面的分配很多地方都是可以重構的,這個也是我們創(chuàng)新的一個點。
另外可以看得到,如果說不對制成的情況下,對進行相應基于應用的優(yōu)化實際上能效比不好的,一旦加入一定架構上的創(chuàng)新變的更靈活以后,能效比非常接近。同時有一個巨大的優(yōu)勢就是它的可編程性,通用性,它能解決的問題非常寬泛的,任何需要大量的數據計算的地方都可以使用GPU。
另外一個我們今天很多的嘉賓談到這一點,在后摩爾時代,先進封裝,系統(tǒng)集成這些方面也是新的機會,是在單芯片創(chuàng)新的基礎之上,系統(tǒng)級在互聯(lián)級甚至在數據中心處理整個大的數據中心的角度有更多創(chuàng)新的機會。
所以我們處于非常好的時代有非常好的機會,面臨巨大的挑戰(zhàn),所以需要有智之士,需要有恒心毅力的,在半導體行業(yè)里沉得下心來,真正的打磨做事情的這樣的團隊去解決這樣的實際的困難。我們集成電路去年9月份才成立,正是基于這樣的時代責任感,我們有一個非常讓人驕傲的團隊。