加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • “1+1”:堆料背后的邏輯鏈
    • UltraFusion:實現(xiàn)“1+1=2”的勝負(fù)手
    • 小結(jié)
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

Apple M1 Ultra: “1+1”,一道簡單的難題

2022/04/13
740
閱讀需 8 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作為Apple Silicon的第一代產(chǎn)品,M1對于蘋果和業(yè)界都具有標(biāo)志性的意義。如今,M1家族已經(jīng)擴(kuò)充到了第四個成員:M1 Ultra。

然而,也許是兄長們將市場的期待值抬得過高,M1 Ultra的問世并沒有像前者一般受到眾星捧月的榮光。相反的卻出現(xiàn)了不少質(zhì)疑:“不過是兩個M1 Max的簡單拼接罷了”,“并沒有逆天的性能”、“除了做視頻一無是處”、“能打游戲嗎”……

所以,M1 Ultra究竟是拉胯還是引領(lǐng)了芯片設(shè)計的新趨勢?蘋果最強芯片的背后,體現(xiàn)了它們怎樣的設(shè)計理念?這篇文章我們就來深入看看。

“1+1”:堆料背后的邏輯鏈

在芯片設(shè)計風(fēng)格上,“舍得堆料”是蘋果一貫的特色。

從微架構(gòu)級別的堆內(nèi)存,到更宏觀一些的堆CPU、GPU核心,再到直接將兩個完整的SoC堆在一起,蘋果的設(shè)計理念并不是在隨機地發(fā)展著,其背后是一條連貫的邏輯線。

因此,當(dāng)兩個M1 Max芯片堆砌而成的M1 Ultra呈現(xiàn)在我們面前時,一切是如此意料之外而又情理之中。

硬件參數(shù)直觀地反映了堆料的效果,這也是M1 Ultra出乎我們意料的原因之一:20個CPU核心、64個GPU核心、32個神經(jīng)網(wǎng)絡(luò)引擎、128GB統(tǒng)一內(nèi)存、800GBps內(nèi)存帶寬、1140億個晶體管,再加上臺積電5納米制造工藝的加持——雖然蘋果在硬件設(shè)計方面的出手闊綽已是人盡皆知,但是如此富裕的硬件資源仍然讓人咋舌。

相比之下,英特爾數(shù)據(jù)中心級超算GPU Ponte Vecchio、英偉達(dá)剛剛發(fā)布還熱乎著的H100 GPU,晶體管數(shù)量也“僅有”區(qū)區(qū)1000億和800億。

所以問題是,為什么蘋果這次選擇的是“1+1”的方式,而不是從零開始、用一個全新的架構(gòu)來整合以上的硬件資源呢?

之前我們聊到了“以芯粒(Chiplet)為基本單位”這種集成方式的優(yōu)勢所在、以及行業(yè)巨頭們對它的推崇備至——UCIe標(biāo)準(zhǔn)的推出。

而M1 Ultra選擇在此時登場,可算是把戲劇性拉滿了:一方面,蘋果用產(chǎn)品表明了自己力挺基于芯粒的技術(shù)方向的態(tài)度;另一方面,又叫板了UCIe:“芯粒的互聯(lián),我已經(jīng)搞定了”。

當(dāng)然,從芯粒的角度來說,身為SoC的M1 Max顯然是太大了些。畢竟在大部分的語境中,一個芯粒更接近于一個IP的物理實現(xiàn)。即便如此,兩者的出發(fā)點仍然有相當(dāng)高的一致性,因此將M1 Ultra看成是一種較為極端的、芯?;ヂ?lián)的嘗試也并無不妥。

使用芯粒的最大好處,就是能顯著縮短芯片開發(fā)的周期。

這類似于模塊化設(shè)計的概念,通過把一個復(fù)雜的設(shè)計任務(wù)拆分為多個功能特定的子任務(wù),實現(xiàn)同一個公司中的不同組之間、乃至不同公司之間的分工合作,把每一個子任務(wù)交到擅長的人手里,開發(fā)效率自然能發(fā)生質(zhì)變。

這一點對于M1 Ultra的設(shè)計工作而言同樣是成立的。假設(shè)沒有M1 Max這個子模塊,如果要把如此豐富的硬件資源一股腦兒塞進(jìn)一個全新的設(shè)計中,我們可能等到明年才能見到M1 Ultra。

芯粒的好處不僅局限于架構(gòu)設(shè)計,而是遍布于芯片開發(fā)的各個階段,比如后端的制造階段。

在相同的制造條件下,越大的芯片面積往往意味著越低的良率。這有點像傳說中的“不要把雞蛋都放在一個籃子里”:打個比方,在平均每個晶圓出現(xiàn)一個壞點的情況下,如果每個晶圓的大小只能容納一塊芯片,那么幾乎所有被制造出的都將是廢片。但如果芯片面積沒那么大、一個晶圓可以制造十塊芯片,那么良率將直接拉升到接近90%。

通過基于芯粒的設(shè)計方式,一個大芯片可以分解成多個芯粒拼湊得到,而不是作為一個整體被制造出來,這就能有效地規(guī)避低良率造成的成本過高的風(fēng)險。

芯粒已經(jīng)成為近年來芯片設(shè)計和制造的熱點,以至于幾家大公司前不久剛剛推出了UCIe協(xié)議,目的就是統(tǒng)一芯粒的設(shè)計要求和規(guī)范。從此芯粒的玩法就有了游戲規(guī)則,在規(guī)則內(nèi)大家可以任意發(fā)揮。

不過,不讓人意外的是,UCIe的初始成員名單里并沒有蘋果。

多年以來,蘋果一直用實際行動宣告著:盡管自己有著設(shè)計一流的芯片的能力,但卻完全無意通過將自己的設(shè)計販賣給其他廠商的方式來獲利。因此,成為制定UCIe標(biāo)準(zhǔn)的一員對于蘋果而言顯然不是一個多有吸引力的選項。

但是,這不表示蘋果對于基于芯粒的設(shè)計理念是不屑一顧的。正如我們所看到的,通過以“1+1”的方式開發(fā)出M1 Ultra,蘋果選擇用產(chǎn)品這一最有說服力的載體來宣布:“芯片互聯(lián),我是極為支持的,并且又一次走在了行業(yè)的前沿。”

UltraFusion:實現(xiàn)“1+1=2”的勝負(fù)手

從硬件參數(shù)的角度來看,兩塊芯片的互聯(lián)自然意味著硬件資源的直接疊加。

但要是說到性能釋放,這道加法便沒那么簡單了:“1+1”等于2并不是必然,結(jié)果可能是1.2、1.5...甚至后者們才是常態(tài)。

這道看似簡單的加法題該如何解?蘋果的答題思路才是重頭戲。

事實上,基于芯片互聯(lián)的多CPU系統(tǒng)目前已經(jīng)得到了非常廣泛的應(yīng)用,尤其是在工作站等應(yīng)用場景下;但是與之相對的,多GPU系統(tǒng)卻還有著不小的技術(shù)進(jìn)步的空間。

有的讀者朋友可能有異議:“這不是睜眼說瞎話嗎?蘋果自家的Mac Pro不就屬于這一范疇?”

誠然,應(yīng)用早已經(jīng)不在少數(shù),但是效果上還只能說是差強人意。究其原因,在于GPU對于帶寬的要求實在是太高了,而導(dǎo)致的結(jié)果就是“1+1<2”:GPU們盡管被連在了一起,但是在面對計算任務(wù)時卻依然是各自為戰(zhàn)、跟一個個獨立的GPU沒什么差別。

這樣的現(xiàn)象在面對單一任務(wù)時會被最大程度地放大。由于無法協(xié)同完成計算,最常見的情況就是:系統(tǒng)中的一個GPU大包大攬、而其余的激情圍觀。這種對硬件資源的浪費,顯然有悖于我們搭建多GPU系統(tǒng)的初衷。

對此,坐擁來自兩個M1 Max的、共計64個GPU核心,M1 Ultra給出的解題思路是一種名為UltraFusion的封裝架構(gòu)。

UltraFusion利用額外的硅中介層連接起兩塊M1 Max,而這個連接的超高速接口早在M1 Max上就已經(jīng)存在了。這進(jìn)一步印證了:蘋果選擇以“1+1”的方式設(shè)計M1 Ultra早已埋下了伏筆,而不是心血來潮。

而硅中介層的應(yīng)用,使得整個封裝架構(gòu)呈現(xiàn)出典型的“2.5D”的特征。作為應(yīng)對逐漸放緩腳步的摩爾定律的手段之一,從平面的2D走向立體的3D一直被認(rèn)為是芯片封裝技術(shù)重要的發(fā)展方向,2.5D便是過渡階段中一種典型的技術(shù)手段。它并不是直接把兩個芯片疊加起來的那種真3D結(jié)構(gòu),而是將多個芯片通過額外的中介層或者橋接進(jìn)行互聯(lián)和集成。

關(guān)于蘋果的UltraFusion,有些人認(rèn)為它的實現(xiàn)方式基于臺積電的CoWoS-S(Chip-on-Wafer-on-Substrate with Si interposer)技術(shù),并做了一系列的優(yōu)化,比如用可關(guān)閉的緩沖器來有效降低互連線的功耗,引入短且密集金屬互連從而提高性能等等。

在UltraFusion的加持下,兩塊M1 Max間的帶寬來到了恐怖的2.5TB/s,這是M1 Ultra很有潛力在實際性能上也能實現(xiàn)“1+1=2”的關(guān)鍵 :對于某一具體的應(yīng)用場景來說,只要兩塊M1 Max間的數(shù)據(jù)傳輸速度能夠滿足其需求,那么兩塊芯片中的硬件資源對于該應(yīng)用而言便是一個合二為一、可以任意調(diào)度的整體。

PK環(huán)節(jié)常常是蘋果發(fā)布會上最讓人津津樂道的部分之一,而這一回成為了背景板的是英偉達(dá)家的GeForce RTX 3090。

3090應(yīng)該可以說是目前桌面級顯卡產(chǎn)品中的一哥,而根據(jù)蘋果給出的數(shù)據(jù),在相同的性能下,M1 Ultra的功耗比前者低了200瓦,因此,這個數(shù)據(jù)乍一看頗為震撼。

但是,我覺得并沒有必要對于這一對比結(jié)果做過度的解讀。

首先,兩者的晶體管數(shù)量上就有著較為明顯的差距:M1 Ultra約為3090的四倍,堆料對于性能的貢獻(xiàn)自然不容忽視;并且兩者的目標(biāo)市場的重合度也不高,這決定了3090的架構(gòu)設(shè)計中很少將“低功耗”作為一個重要指標(biāo) ;何況M1 Ultra基于業(yè)內(nèi)最為先進(jìn)的臺積電5納米制造工藝,而3090采用的則是三星的8納米工藝,由制造工藝上的差距造成的性能差異同樣是有決定性意義的。更重要的是,當(dāng)系統(tǒng)給到滿血功率的時候,3090的性能實際是超過M1 Ultra的,已經(jīng)有不少國內(nèi)外的博主證實了這一點。

比起花式地作出“震驚!M1 Ultra吊打了…”這樣的驚呼,我對于M1 Ultra最大的期待仍然執(zhí)著于那道簡單的難題:它究竟能不能在實際的應(yīng)用場景中實現(xiàn)“1+1=2”?

從硬件角度來說:2.5TB/s的片間帶寬能夠滿足具體計算任務(wù)的需求?片間的延遲會不會依舊是難以攻克的瓶頸?而在軟件方面,能否靈活地調(diào)度兩個M1 Max中豐富的硬件資源來高效地完成各種處理任務(wù) ?我覺得這才是M1 Ultra真正需要證明自己的地方。

我很期待蘋果用M1 Ultra交出的這份答卷,因為一旦它成功了,這對于基于芯粒的設(shè)計理念來說、對于基于芯片互聯(lián)的多GPU系統(tǒng)來說,都將是具有劃時代的重大意義。

小結(jié)

利用UltraFushion技術(shù),蘋果選擇用兩塊M1 Max拼接組成M1家族的最后、同時也是最強的一員M1 Ultra——這一選擇看似簡約,但絕對不簡單。

隨著制定UCIe標(biāo)準(zhǔn)一事被提上日程,基于芯粒的芯片設(shè)計理念從幕后走向了臺前。通過M1 Ultra的發(fā)布,蘋果向我們傳達(dá)了自己對于這一理念的理解與支持,或者說展示了一種具有蘋果特色的、對于這一理念的打開方式:芯片互聯(lián)能帶給我們的不僅僅是更便捷的芯片開發(fā)流程、開發(fā)效率,還可以是更為強大的計算能力——在半導(dǎo)體制程逐漸逼近物理極限的此時此刻,這一點至關(guān)重要。

M1 Ultra是否是一款成功的設(shè)計?這個問題的答案可能并不重要,但蘋果用M1 Ultra指明了一個可行的技術(shù)方向,因此其存在本身便為行業(yè)提供了指導(dǎo)意義。

(注:本文不代表老石任職單位的觀點。)

蘋果

蘋果

蘋果公司(Apple Inc.),是美國的一家跨國科技公司,總部位于美國加州庫比蒂諾硅谷,由史蒂夫·喬布斯和斯蒂夫·蓋瑞·沃茲尼亞克共同創(chuàng)立。公司最初從事電腦設(shè)計與銷售業(yè)務(wù),后發(fā)展為包括設(shè)計和研發(fā)電腦、手機、穿戴設(shè)備等電子產(chǎn)品,提供計算機軟件、在線服務(wù)等業(yè)務(wù) 。

蘋果公司(Apple Inc.),是美國的一家跨國科技公司,總部位于美國加州庫比蒂諾硅谷,由史蒂夫·喬布斯和斯蒂夫·蓋瑞·沃茲尼亞克共同創(chuàng)立。公司最初從事電腦設(shè)計與銷售業(yè)務(wù),后發(fā)展為包括設(shè)計和研發(fā)電腦、手機、穿戴設(shè)備等電子產(chǎn)品,提供計算機軟件、在線服務(wù)等業(yè)務(wù) 。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

微信公眾號“老石談芯”主理人,博士畢業(yè)于倫敦帝國理工大學(xué)電子工程系,現(xiàn)任某知名半導(dǎo)體公司高級FPGA研發(fā)工程師,從事基于FPGA的數(shù)據(jù)中心網(wǎng)絡(luò)加速、網(wǎng)絡(luò)功能虛擬化、高速有線網(wǎng)絡(luò)通信等領(lǐng)域的研發(fā)和創(chuàng)新工作。曾經(jīng)針對FPGA、高性能與可重構(gòu)計算等技術(shù)在學(xué)術(shù)界頂級會議和期刊上發(fā)表過多篇研究論文。