現(xiàn)代數(shù)據(jù)中心和 HPC 環(huán)境的快速變化要求技術行業(yè)提供更強大的算力,而該行業(yè)在提供算力容量方面遇到重大障礙?;蛟S很少有人比 AMD 總裁兼首席執(zhí)行官蘇姿豐更了解這一事實。
?
?
設備的數(shù)量正在激增,大量的數(shù)據(jù)正在被生成,需要處理分析,所以我們利用機器學習來教計算機去做這些事情,因為人類和他們編寫的順序代碼跟不上處理節(jié)奏。人工智能、數(shù)據(jù)分析、軟件定義的存儲和沉浸式計算——它們都需要更多的計算能力,蘇姿豐在斯坦福大學的 Hotchips 會議上的演講中解釋道。
蘇姿豐說,所有這一切的關鍵信息是,無論您談論的是哪些應用,您都需要更多的算力才能取得進展,如果沒有摩爾定律的約束,這將會變得有趣,但更有趣的是,應用需要我們超越摩爾定律。我們需要比業(yè)界過去做得更多,因為應用程序和數(shù)據(jù)需要更多的算力。
當然,說起來容易做起來難。十多年來,CPU 和 GPU 的性能每兩年多穩(wěn)步提高一倍,晶體管密度每三年翻一番,能效也花了近四年的時間來提高一倍。蘇姿豐提供了一組數(shù)據(jù)數(shù)據(jù),如下,自 2006 年以來兩個套接字服務器的浮點和整數(shù)性能,此時公共云真正開始起飛:
以下是晶體管密度和功率效率趨勢:
然而,為了保持或擴展性能曲線,還需要做一些事情,在過去十年中,工藝技術占工作量的 40%左右,模具尺寸和額外的 TDP 占另外 20%,其余部分由微架構、電源管理和編譯器組成。
想要進一步提升高性能計算的性能(一般意義上,不意味著模擬和建模)變得越來越困難,障礙包括摩爾定律的放緩和模具尺寸的增加成本的上升。下面是摩爾定律曲線:
可以看到,曲線正在彎曲,因為連續(xù)節(jié)點需要更多時間才能上市,同時,隨著開發(fā)和軟件成本的上升以及工程和制造設備成本的提高,將芯片推向市場的成本也在上升。如下圖,我們可以看到每個制程花費的成本曲線:
具有諷刺意味的是,早在 AMD 在 Opteron 時代談論電源效率時,它比英特爾的至強處理器具有優(yōu)勢時,數(shù)據(jù)中心公司還不太關心這一原始性能。但是現(xiàn)在,所有處理器,無論你在芯片設計上與系統(tǒng)集成了多少,都面臨著巨大的電源和冷卻挑戰(zhàn)。
蘇姿豐表示,把優(yōu)化電源放在第一位的想法在過去的七到八年間就已經(jīng)出現(xiàn),我們一直在推動。對于我們性能最高的處理器以及我們的競爭對手,我們不斷努力推動電源的包絡。我們在冷卻技術和冷卻能力方面已經(jīng)做的足夠好了,但是也只是獲得了一點點性能的提升。我們將繼續(xù)嘗試推動電源的包絡,但不要忘記,芯片冷卻有一些重要的物理極限。
AMD 工程師在開發(fā)公司的 Zen 架構時考慮到了所有這些,該架構于 2017 年首次亮相 Epyc 服務器處理器,隨后在本月早些時候推出了第二代 Epyc "羅馬"芯片和 Zen 2 架構。
在 Hotchips 會議上,蘇姿豐用 AMD 的 Zen 1 和 Zen 2 的設計和架構工作舉例說明作為行業(yè)需要做些什么來跟上對更多計算能力日益增長的需求,同時克服傳統(tǒng)芯片工作固有的障礙。一般來說,這意味著要從整體上看待挑戰(zhàn),不僅使用芯片,還包括系統(tǒng)和軟件,開發(fā)針對它們運行的工作負載優(yōu)化的微架構,并創(chuàng)建合作伙伴生態(tài)系統(tǒng)。這也意味著,要向下看未來幾代產(chǎn)品,以確保它們繼續(xù)提高性能并控制成本。
我們在 2013-2014 年的時間范圍內(nèi)看到了這兩個趨勢,蘇姿豐表示,有些事情必須改變。你不能只做越來越大的單片芯片,雖然做到這一點不難,但你并不會得到性能的提升,所以我們在多芯片架構上進行了大量的投資。
這就是著利用多芯片模塊的芯片,這也是從第一代 Zen 架構到第二代架構發(fā)生的重大轉(zhuǎn)變。
蘇姿豐說,這樣做的目的是為了賺更多的錢。這是為了確保您以更好的成本點獲得更高的性能,因此我們通過使用更小的模具獲得更好的產(chǎn)量,還獲得了一個不錯的架構。當我們遷移到 7 nm 時,我們強調(diào)了小芯片的概念,要對晶體管做出正確的優(yōu)化。在第二代 EPYC 中,我們認為最有價值的晶體管是 CPU,所以我們用 7nm 制程制作。但是,I/O 和內(nèi)存,坦率地說,沒有那么大的價值,所以我們實際上用的 12nm。因此,我們可以看到每個 IP 都使用了符合它的最佳工藝技術。實際上,這是一個非常好的架構,它打破了一些傳統(tǒng)趨勢,坦率地說,它給了我們非常強大的靈活性。使用相同的基本設計,我們可以覆蓋高性能桌面處理器、高性能工作站和高性能服務器。這是一個例子,圍繞小芯片架構的創(chuàng)新確實可以為未來帶來回報。
與標準行業(yè)趨勢相比,性能顯著提升。
系統(tǒng)設計與芯片設計同樣重要,蘇姿豐說。關鍵是了解正在運行的應用程序,然后能夠優(yōu)化芯片和系統(tǒng)。芯片很重要,但系統(tǒng)需要的不僅僅是通用 CPU。還有有 GPU、現(xiàn)場可編程門陣列(FPGA)和自定義 ASIC,不同的應用程序需要不同的比率。異構平臺還要求節(jié)點之間的高速互連,AMD 的羅馬芯片便使用 PCI-Express 4.0 和先進的無限結(jié)構架構來滿足上述要求。
如果芯片供應商要提供現(xiàn)代工作負載所需的性能,他們還需要了解軟件和應用程序。
無論我們?nèi)绾慰创?,我們作?a class="article-link" target="_blank" href="/tag/%E8%8A%AF%E7%89%87%E5%85%AC%E5%8F%B8/">芯片公司需要確保我們的芯片盡可能可編程以提供最佳的系統(tǒng)性能,她說。從這個角度來看,有一大堆東西在"充分利用你的芯片"。我們試圖讓庫、分析器、調(diào)試器、編譯器,所有這些東西都盡可能為芯片優(yōu)化。我們也堅信,在開源環(huán)境中,能夠做得更好,這樣每個人都能為此做出貢獻。
例如,當開發(fā)人員將 TensorFlow 或 PyTorch 用于機器學習應用時,芯片制造商必須確保其產(chǎn)品針對該軟件進行優(yōu)化。
機器學習推動對更多計算能力的需求的應用程序。CPU 和 GPU 的計算能力每兩年左右會翻倍。但是,對機器學習算法的更多訓練的需求是每 3.5 個月算力消耗就要翻番。
這實際上是一件令人難以置信的事情,蘇姿豐說,這意味著你可以想出這些偉大的算法,或者你花非常長的時間找出問題,或者你建立大型計算場,或者你試圖獲得更高效的計算,你可能做上述的每一件事情。
超級計算機的性能,如機器 500 強排名所體現(xiàn)的,是需要解決的挑戰(zhàn)的另一個例子。超級計算機仍在加速,每 1.2 年翻一番,但速度正在放緩。下面是一個常見的經(jīng)典的高性能計算應用程序:
需要創(chuàng)新才能使曲線回到正軌,而針對特定工作負載優(yōu)化的系統(tǒng)是關鍵。但重要的是不要過分概括,蘇姿豐通過比較傳統(tǒng) HPC 工作負載和更現(xiàn)代的 AI 工作負載的數(shù)據(jù)指出,這兩個工作負載都可以在類似的 GPU 加速系統(tǒng)上運行:
在上圖中,兩個 HPC 應用程序具有不同的計算需求,分子動力學的 NAMD 應用程序是 GPU 密集型應用程序,而用于自然語言處理的機器學習應用程序需要比你預期更多的 CPU 性能需求。
這里我想說的是,如果你這樣做,一切就很完美,但是事實并非如此,蘇姿豐解釋道,你要做到這一切,必須優(yōu)化 CPU、GPU、互連、內(nèi)存和網(wǎng)絡帶寬,才能真正在 HPC 中推動包絡。
鑒于上述情況,她指出,圍繞 CPU 和 GPU 開展的工作很多,但連接性創(chuàng)新的速度卻沒有跟上,內(nèi)存帶寬也是滯后的。
蘇姿豐說,盡管我們繼續(xù)投資內(nèi)存和計算元素之間緊密的耦合,但隨著時間的推移,內(nèi)存帶寬并沒有真正跟上,我們是高帶寬內(nèi)存的忠實信徒。高帶寬內(nèi)存具有強大的路線圖,對于芯片繼續(xù)高速發(fā)展非常重要。我們還查看了模具中的大量優(yōu)化,因此片上緩存層次結(jié)構可以對這些內(nèi)存帶寬產(chǎn)生更大的影響。隨著我們不斷推進,可以想象會用 3D 堆疊或其他集成方法將幫助拓寬內(nèi)存帶寬曲線。
蘇姿豐指出,當 AMD 和 Cray(由 HPE 以 13 億美元收購)為橡樹嶺國家實驗室建造的 1.5 臺超大規(guī)模超級計算機"Frontier"在 2021 年推出時,更多的優(yōu)化工作將被展出。它將具有高度優(yōu)化的 CPU 和 GPU,這是兩者之間一致的互連,以及低延遲節(jié)點到節(jié)點功能。它還能夠運行傳統(tǒng)的 HPC 工作負載,還可以利用 AI 和機器學習進行商業(yè)應用程序。蘇姿豐說,最終,該系統(tǒng)中的許多技術將進入更多的商業(yè)系統(tǒng)。
我們絕對相信這一點,這就是它應有的工作方式。
與非網(wǎng)編譯內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!