當高啟強給泰叔說「風浪越大,魚越貴」的時候,大概率沒想到,這句話竟也適用于芯片行業(yè)。
這幾年是人工智能的大年,風口之上,不只有綠廠一騎絕塵,各家芯片大廠也紛紛調轉船頭,希望在AI的海里多撈幾條大魚。
相比之下,另外一個技術半球、曾經風浪也很大的領域——云計算,貌似消停了不少。消停到以至于很多人沒注意一個相當重磅的消息:7月初,亞馬遜云服務官宣,他們最新的Graviton4芯片,已經完成了大規(guī)模部署。
這個消息之所以值得關注,是因為Graviton芯片本身就非常值得關注。遙想當年亞馬遜云科技作為第一個吃螃蟹的人、以云計算公司的身份開始自研芯片,到現(xiàn)在Graviton4芯片大規(guī)模部署商用,這個過程中他們已經引領了三波重要的技術趨勢:
趨勢一:云廠商自研芯片,并由此構建獨特的核心競爭力
趨勢二:Arm架構在云端、消費端等各個場景的廣泛使用
趨勢三:軟硬結合開啟了更多創(chuàng)新機會,AI也是其中之一
今天這篇文章就幫你詳細拆解下,Graviton4的大規(guī)模商用部署,是否會在科技領域掀起另一波滔天巨浪。
分析技術趨勢之前,我們必須先來回顧和梳理一下Graviton這顆芯片的成長歷程。
2015年,亞馬遜花3.5億美元收購了一個以色列的芯片公司Annapurna Labs,這成為Graviton芯片誕生的開端。站在現(xiàn)在的上帝視角往回看,這次3.5億美元的收購撬動了超過4000億美元的全球云計算市場。
事實上,兩家公司在收購之前就已經有很密切的合作了。亞馬遜云科技的當家技術叫做Amazon EC2,也就是Elastic Compute Cloud的縮寫。這個東西是一個云計算的基礎性平臺,包括人工智能在內的很多應用,其實都是運行在這個平臺上的一個個實例(instance)。所以這兩家公司當時合作的重點,就是不斷迭代Amazon EC2的性能和靈活性。但越迭代他們就越發(fā)現(xiàn),軟件優(yōu)化的油水被榨的差不多了,各種瓶頸已經從軟件轉移到了硬件。更聚焦的說,瓶頸就是芯片。
本質原因很簡單,市面上賣的各種芯片大都是通用芯片,并不會根據(jù)某個客戶的需求做定制優(yōu)化,即便是亞馬遜云科技這樣的超級大客戶也不行。
于是他們決定,要自研芯片。
在2016年的re:Invent大會上,亞馬遜云科技的傳奇工程師James Hamilton就從口袋里拿出了他們自研的第一顆數(shù)據(jù)中心芯片,用來支持2x25G以太網的數(shù)據(jù)包處理。當時給業(yè)界帶來的震撼程度,絲毫不亞于ChatGPT的發(fā)布。因為人們突然意識到,原來云廠商能打破次元壁,去搶芯片公司的飯碗,而且可以做的很好。
更加震撼的是,Graviton的芯片架構沒有選擇當時占據(jù)99%市場份額的x86,而是選擇了基于Arm的Neoverse內核打造。要知道當時行業(yè)的普遍認知是,Arm只適用于低功耗和移動端場景,PC都費勁,更不用說有著高性能高功耗的數(shù)據(jù)中心服務器場景,真的開眼了。
芯片工程師們也集體沸騰了,因為這相當于給他們開啟了一片職業(yè)生涯的藍海。原來我們也能去互聯(lián)網和云計算公司,分享一波互聯(lián)網的紅利。
兩年后,亞馬遜云科技在2018年的re:Invent大會上正式發(fā)布了第一代Graviton處理器、2019年推出了Graviton2、2021年推出了Graviton3、2023年推出了Graviton4,保持了兩年一更的節(jié)奏,而且每代都取得了極大的飛躍和提升。值得特別注意的是,Graviton是基于Arm架構的服務器CPU芯片,目前驅動了超過150種計算實例、全球超過5萬家企業(yè)和開發(fā)者在使用,這里面的意義是不言而喻的。
具體來看Graviton4芯片,和前一代相比,核心數(shù)提升50%,達到96個;每個內核采用了當前最頂級的Arm Neoverse V2架構,這也是業(yè)界最早支持Arm v9架構的芯片之一。存儲方面,Graviton4在緩存容量、內存容量和帶寬等多個方面全面升級。比如每個核心的L2緩存擴大一倍到2MB,這樣二級緩存總量達到192MB;同時支持12通道DDR5-5600,內存帶寬提升75%,峰值帶寬可以達到537.6GB/s。高速接口方面,Graviton4支持高達96通道的PCIe 5.0高速接口,非常適合數(shù)據(jù)中心云計算和云存儲場景。
更重要的是,Graviton4的設計范式也在悄然改變。傳統(tǒng)CPU的評價機制一般都是各種benchmark(基準測試),比如Microbench、SPEC等。但隨著業(yè)務的不斷細化、應用場景不斷增加,原來那些統(tǒng)一的benchmark可能很難代表某個應用場景的需求。很可能成了一個跑分大殺器,但實際使用的時候達不到要求。根據(jù)亞馬遜云科技在上海 Summit 上展示的材料,也充分對比了 Micro benchmark 和真實工作負載在 CPU 上的表現(xiàn)有很大差異。
于是從Graviton4開始,亞馬遜云科技的造芯思路就從跑分轉移到面向實際應用做設計,讓芯片更加貼近使用場景,規(guī)避不必要的「內卷式」優(yōu)化。
當然,這也是亞馬遜云科技這樣的云廠商才能有的「特權」。一個CPU的參數(shù)茫茫多,牽一發(fā)則動全身,所以特別需要知道哪些參數(shù)是重要的、哪些可能沒那么重要。相比傳統(tǒng)芯片設計公司,云廠商有大量實際場景和案例,對不同應用的側重點和優(yōu)化方向有第一手資料,相當于坐擁一個大寶藏了。而且這些應用更貼近自己的業(yè)務場景,也不需要為其他云計算公司的其他業(yè)務做妥協(xié)。
再詳細聊聊前文說的Graviton帶來的三個技術趨勢。第一個趨勢,就是在亞馬遜云科技的造芯「示范效應」下,全球各家云廠商都紛紛開始自研芯片了,而且自研芯片給亞馬遜云科技自己的業(yè)務也帶來了實打實的提升。
根據(jù)亞馬遜云科技的數(shù)據(jù),和前一代相比,基于Graviton4的R8g實例性能提升30%,數(shù)據(jù)庫性能提升40%。國外也有手快的人第一時間做了測試,在HPC、加密、代碼編譯、模擬仿真、光線追蹤等實際應用場景下,Graviton4都取得了不錯的提升。
比如做數(shù)字芯片仿真常用的Gem5模擬器,編譯一個大型芯片的仿真需要很久,所以編譯速度非常關鍵。但從測試結果可以看到,使用R8g實例后編譯速度明顯提升,不僅比前幾代有大幅提升,也比大廠的產品有23%~49%的提升。
之所以Graviton能在短短幾年取得如此亮眼的成績,一個重要的原因就是采用了Arm指令集架構,這也是他們引領的第二個技術趨勢。x86服務器芯片其實起源于客戶端芯片,然后逐漸往里面增加服務器芯片需要的功能。而亞馬遜云科技沒有這樣的包袱,他們就專注于服務器芯片本身,在利用了Arm架構低功耗、低延時的優(yōu)點的同時,還結合自己的應用做了大量性能優(yōu)化,也讓Graviton成為了Arm架構在高性能計算領域的成功范例。
比如,Honeycomb公司在測試了R8g實例后發(fā)現(xiàn),和x86架構相比,Graviton在降低尾延時方面效果最明顯。與基于 Graviton3的 C7g、M7g 或 R7g 實例相比,R8g實例運行的副本數(shù)可減少 25%、中位數(shù)延遲降低20%,第99百分位延遲降低了10%。
不僅如此,Graviton已經開始進軍AI領域。它特別內置了可伸縮矢量擴展(SVE)技術,它是單指令多數(shù)據(jù)(SIMD)的進一步延伸,允許CPU自由使用不同的向量長度,從而實現(xiàn)更加靈活的數(shù)據(jù)訪問和計算,這也是Arm架構支持AI計算的殺手級技術之一。在Graviton4中,每個內核就集成了4個128位的SVE-2矢量引擎,明顯就是著重發(fā)力高性能計算和AI應用。
此外,Armv8.6-A架構中還特別添加了SMMLA和FMMLA,可以在不同寬度的陣列上同時執(zhí)行通用矩陣乘法,并且將取指周期縮短最高4倍、將計算周期縮短達16倍。
這些是Arm架構針對ML和AI的優(yōu)化,Graviton其實也做了很多自己的進一步優(yōu)化。比如面向大語言模型的推理應用時,Graviton針對int4和int8內核進行了優(yōu)化,從而更好支持這些低精度數(shù)據(jù)指令。
根據(jù)亞馬遜云科技的數(shù)據(jù),在Llama3-8B模型的推理應用里,當進行提示詞處理和Token生成時,Graviton3比友商的第四代至強和第四代EPYC都取得了明顯性能提升。那用了Graviton4之后,隨著單核性能至少提升30%,整體AI能力更是降維打擊前一代。
Graviton帶來的第三個技術趨勢,就是借助Graviton的加持,讓亞馬遜云科技這樣的云計算公司更快從通用計算進軍AI計算。未來的AI領域,大模型訓練或許只是少數(shù),而基于大模型的推理才是更加廣泛的應用。這時算力就不完全是絕對且唯一的考慮因素,人們還需要思考更多關于功耗、成本、延時這些同樣關鍵的指標。
很多人認為自研芯片是個投入極高的事情,事實也的確如此。但一旦芯片大規(guī)模量產部署,邊際成本就會越來越低,自研芯片的成本優(yōu)勢甚至會在這個時候凸顯出來。芯片界大神Jim Keller曾經說過,當摩爾定律驅使單顆芯片上晶體管數(shù)量不斷增加的時候,單純追求更多晶體管并沒有意義,有意義的是如何把這些多出來的晶體管用起來。
通過自研芯片,能去掉很多自己業(yè)務場景中不會出現(xiàn)、或極少出現(xiàn)的情況,讓芯片的每個晶體管都能用起來。相比之下,芯片廠商需要兼顧不同客戶之間的通用性,所以會不得不各種「端水」,造成面積和晶體管的浪費。這也是為什么基于Graviton的云計算實例更便宜的本質原因。
其實,很多傳統(tǒng)云計算或許還有一些「歷史包袱」,比如成堆的歷史代碼都是面向x86架構開發(fā)的,移植到Arm架構需要一定的時間和努力。但面向AI、特別是大模型相關的應用時,x86和Arm幾乎是站在同一條起跑線,這也給沒有歷史包袱的Arm架構在AI端的應用提供了新的機會。
圖靈獎得主John Hennessy和David Patterson說過,當前是計算機架構的新黃金時代。他們做的一個重要預言,就是CPU的架構將朝著更加精簡的方向發(fā)展。而這條預言,幾乎已經被Graviton變成了現(xiàn)實。
Graviton引領的三個技術趨勢或許只是表象,當人們幾乎一致認為x86 CPU就是終極解法時、當人們認為AI芯片等同于GPU時,它為我們揭示了技術發(fā)展更多的可能,并由此帶來芯片設計范式的變革——這或許才是Graviton給行業(yè)帶來的更大意義。
亞馬遜云科技re:Inforce 2024中國站即將拉開帷幕!
(注:本文不代表老石任職單位的觀點。)