在 8 月中旬結(jié)束的英特爾 2020 架構(gòu)日活動里,英特爾發(fā)布了包括 Tiger Lake SoC、Xe GPU、SuperFin 晶體管工藝、FPGA 路線圖、oneAPI 框架等一系列最新的技術進展。這些技術和產(chǎn)品涵蓋了工藝、架構(gòu)、存儲、互連、安全、軟件六大層面,這也是英特爾首席架構(gòu)師 Raja Koduri 一直在主推的英特爾全棧式軟硬件架構(gòu)。
Xe GPU 是英特爾近年來重點研發(fā)的下一代 GPU 架構(gòu)。和英特爾之前的集成 GPU 不同,Xe 更多的是一個基礎 GPU 架構(gòu),由此可以衍生出多種針對不同應用領域和場景的 GPU 產(chǎn)品。這次正式發(fā)布的 Xe GPU 產(chǎn)品系列,從主打集成顯卡和入門級獨立顯卡的 XeLP,到針對游戲和桌面性能進行優(yōu)化的 Xe HPG,再到主要應用于數(shù)據(jù)中心和 AI 的 Xe HP,然后還有面向高性能計算的 Xe HPC,一共四大系列。
特別值得注意的是,這四類 Xe GPU 將使用不同的半導體制作工藝進行流片生產(chǎn),其中不僅包含英特爾自家的 10 納米工藝,以及這次發(fā)布的下一代 10 納米 SuperFin 工藝,還包含了來自其他代工廠的工藝。雖然在發(fā)布會上沒有直接點名,但臺積電以 6 納米工藝拿下英特爾數(shù)十萬片芯片訂單的消息,早就是公開的“秘密”了。
在今年的 HotChips 大會上,英特爾對 Xe 架構(gòu)進行了深入介紹??梢钥吹剑琗e GPU 毫無疑問被英特爾寄予厚望。Xe 的出現(xiàn),正式宣布英特爾進軍高性能 GPU 領域,也完成了英特爾的 Scalar(CPU)、Vector(GPU)、Matrix(ASIC)、Spatial(FPGA)四大計算類型的芯片全覆蓋。
在這篇文章中,我將從硬件架構(gòu)、軟件堆棧、應用場景等領域?qū)?Xe GPU 進行深入的技術解析。我用思維導圖的形式,總結(jié)了本文涉及的全部技術要點。
?
Xe 架構(gòu)的主要特點
Xe 的主要設計思路有三點:軟件先行、兼顧擴展、全新應用。這表明 Xe 并非是作為一個孤立的產(chǎn)品出現(xiàn),而是會結(jié)合英特爾完整的硬件產(chǎn)品組合、以及統(tǒng)一的軟件開發(fā)環(huán)境而協(xié)同設計。Raja 多次強調(diào),希望使用相同的軟件棧、相同的微架構(gòu)設計,實現(xiàn)多個 Xe 產(chǎn)品的快速擴展,這在后面的文章中也會多次提及。
Xe 的主體架構(gòu)基于 Slice 實現(xiàn),最多有 6 個 subSlice,共計高達 96 個 EU(Execution Unit),能提供每周期 1536 次浮點運算。
和英特爾的前一代集顯相比,XeLP 幾乎重新設計了自身的微架構(gòu),特別是最基本的運算執(zhí)行單元 EU。XeLP 的 EU 架構(gòu)示意圖如下所示。
在英特爾的第 11 代集顯中,每個 EU 里包含 8 個用來進行算術運算的流水線。為了得到更高的算術運算性能,XeLP 將 EU 里的算術運算流水線擴展了一倍,達到 16 條。這些算術運算流水線可以執(zhí)行定點數(shù)、單精度浮點數(shù)和雙精度浮點數(shù)運算,以及復雜數(shù)學運算和可選的矩陣運算的擴展。每條流水線的寬度都比上一代得到了增加,從而將 INT16 和 INT32 的性能提升了一倍。事實上,為了簡化實現(xiàn)過程,XeLP 將上一代集顯的兩個 EU 單元合并在一起,并共用一個線程管理模塊。
在存儲系統(tǒng)方面,XeLP 重新設計了 L1 Cache,并將 L3 Cache 的容量提升到了 16MB。此外還將顯卡內(nèi)存的帶寬增加了一倍。
XeLP 的游戲性能
XeLP 主要的市場定位是集成顯卡以及入門級獨立顯卡。即便如此,XeLP 也對游戲性能進行了針對性的優(yōu)化。下面就是一些在 XeLP 上運行的游戲截圖,例如,XeLP 可以支持戰(zhàn)地 5 在 1080p、30FPS 和特效全開時的流暢運行。?
在具體的優(yōu)化方面,首先就是在保持相同性能的前提下,大幅降低了功耗。例如,下圖展示了在運行戰(zhàn)地 1 的時候,英特爾前一代 GPU 和 XeLP 的畫面和功耗對比??梢钥吹?,在畫質(zhì)相似的情況下,前一代 GPU 的功耗為 25 瓦,而 XeLP 僅為 15 瓦。此外,XeLP 還對幀率進行了提升,這也能很大程度上避免掉幀,使得畫質(zhì)表現(xiàn)更為細膩,在下圖中坦克的履帶部分也能較為明顯的看出來。
正因如此,在相同功耗條件下,XeLP 可以在保證穩(wěn)定幀數(shù)的同時,帶來更高質(zhì)量的畫面效果。下圖就對比了前一代 GPU 和 XeLP 的畫面渲染能力和畫質(zhì)。可以看到,XeLP 的細節(jié)表現(xiàn)能力要遠超于前一代 GPU,比如對陰影部分和車體細節(jié)的刻畫等等。
在跑分方面,和同級別的英偉達 GeForce MX350、以及 AMD 的 Vega8 相比,XeLP GPU 跑出了更高的評分,見下表:
值得注意的是,這里參與跑分的是集成在 Tiger Lake 里的集成 Xe GPU,但它的跑分竟稍微超過了英偉達的獨立顯卡 MX350。要知道,后者不僅有更高的頻率,還有 2GB 的 GDDR5 顯存。這也從另外一個角度印證了 Xe 的性能潛力。
對 AI 運算的優(yōu)化
在英特爾最新的 Tiger Lake 架構(gòu)中,包含了名為 Willow Core 的全新 CPU 內(nèi)核單元,以及 XeLP 的集顯版本。關于 Tiger Lake 和 Willow Core 的詳細技術解讀,將會在下篇文章里進行深入介紹。這里想提到的是,Tiger Lake 里的 XeLP 還對 AI 運算進行了一定的架構(gòu)優(yōu)化。當結(jié)合 OpenVINO 工具包和英特爾的 DL Boost 技術時,就可以大幅提升 AI 推斷的算力。如下圖所示,當運行 Gigapixel AI 進行圖像增強時,XeLP 和前兩代 GPU 相比取得了指數(shù)級的算力提升。
對多媒體和顯示的優(yōu)化
XeLP 對于多媒體和顯示方面的優(yōu)化,主要的受眾就是廣大的視頻和圖像內(nèi)容創(chuàng)作者。這方面的優(yōu)化主要有三個主要方向,即提供更多的像素、更多色彩、以及更低的功耗。
具體來說,XeLP 里集成了多媒體引擎(Media Engine),它支持 4K/8K60 幀視頻、Dolby 視界 HDR 等一系列超高清視頻標準,在編解碼吞吐量上達到了最高 2 倍的性能提升。
在 XeLP 的顯示引擎(Display Engine)里,集成了 4 條像素處理流水線,使得 XeLP 支持包括 DisplayPort1.4、HDMI2.0、USB4 Type-C 等多種視頻接口,以及 8K UHD、HDR10 和杜比視界等多種超高清視頻的播放。
關于多媒體引擎和顯示引擎的具體架構(gòu)細節(jié),可以參見 Xe 在 HotChips2020 上的幻燈片,已上傳至知識星球。
Xe GPU 的軟件堆棧
Xe 作為一個全新的 GPU 產(chǎn)品系列,它的一個主要優(yōu)化重點就在于軟件系統(tǒng)的設計。它的設計重心,就是為現(xiàn)在和未來的 Xe 架構(gòu)使用統(tǒng)一的驅(qū)動協(xié)議棧,這與英特爾 oneAPI 的核心思想是一致的。oneAPI 是英特爾在軟件層面最大的雄心,關于 oneAPI 的更多內(nèi)容,可以看一下老石之前的文章《oneAPI:天下大同》。
相比之前的集成顯卡系列,Xe GPU 對軟件驅(qū)動的架構(gòu)做了很多大刀闊斧的改變。其中最主要的有三點:更高效的編譯器、全新的 DirectX11 驅(qū)動,以及 GPU Profile(見下圖)。此外,Xe 還支持對特定游戲的針對性優(yōu)化,名為 Instant Game Tuning。這種優(yōu)化方式會自動進行,不需要進行額外的驅(qū)動更新。
Xe GPU 的產(chǎn)品系列和制造工藝
前面介紹的 XeLP,主要將作為 TigerLake SoC 里的集成 GPU 面向市場。但除此之外,XeLP 還有其他兩種產(chǎn)品形式,一個稱為 DG1,另一個稱為 SG1。其中,DG1 是英特爾的首個獨立顯卡產(chǎn)品,它主要面向的是基于移動平臺的視頻和圖像內(nèi)容創(chuàng)作者。SG1 是另一個基于 XeLP 架構(gòu)的獨立顯卡產(chǎn)品,它主要面向的則是數(shù)據(jù)中心里的多媒體內(nèi)容處理和相關應用。
對于數(shù)據(jù)中心更廣闊的應用場景,Xe 有一款名為 XeHP 的 GPU 產(chǎn)品專門負責。和 XeLP 相比,XeHP 在微架構(gòu)上專門為數(shù)據(jù)中心做了優(yōu)化,以提升 GPU 的整體性能。例如,XeHP 的 EU 數(shù)量,從 XeLP 的幾十個,直接增加到上千個;運行頻率比 XeLP 上升兩倍;顯存帶寬和 IPC 也比集成顯卡提升 10 倍,等等。此外,XeHP 還特別設計了數(shù)學運算單元,比如增強了對雙精度浮點數(shù)和 AI 相關的數(shù)學運算的硬件支持。
更有意思的是,XeHP 還能通過直接增加 Tile 的數(shù)量,實現(xiàn)性能的線性增長。例如,XeHP 目前有三種封裝形式,分別包含了 1 個、2 個和 4 個 Tile,其中每個 Tile 就是一個完整的 Xe GPU 子芯片。
從下面的實驗室測試實例可以看到,當增加 Tile 的數(shù)量時,芯片的 FP32 峰值算力從 10TFLOPS,線性上升到 21TFLOPS 和 42TFLOPS。
這種線性擴展的最大優(yōu)勢在于,在一次性完成單個 Tile 的軟硬件設計之后,直接通過增加 Tile 的數(shù)量就可以成倍提升性能,而無需對軟硬件做出改變或重新設計。事實上,這樣的線性擴展并沒有看起來這么直接,這其中涉及了諸如芯片封裝、互連、軟硬件架構(gòu)的擴展性設計等很多方面的內(nèi)容。這和英特爾 FPGA 里使用的,通過 EMIB 和 AIB 技術將 FPGA 的可編程邏輯陣列與不同收發(fā)器模塊進行互連,有著異曲同工之妙。
Xe 的第三個產(chǎn)品大類,名為 XeHPG,它專門針對游戲和高性能桌面應用進行了優(yōu)化,比如增加了光線追蹤(Ray-Tracing)的硬件支持等等。XeHPG 預計 2021 年正式出貨。
Xe 的最后一個產(chǎn)品系列,就是代號為 Ponte Vecchio 的 XeHPC,它主要面向高性能計算、超級計算機等領域進行優(yōu)化和設計。
前不久英特爾宣布,自家的 7 納米工藝遇到問題,并將投產(chǎn)時間推遲到 2022 年,這也造成了英特爾股價暴跌近 20%。隨后英特爾宣布,會考慮和其他芯片代工廠合作,并外包部分芯片產(chǎn)品。正如本文開頭提到的,臺積電隨后獲得了英特爾的 18 萬片 6 納米芯片訂單。
這些訂單中的很大一部分,就來自 Xe GPU 系列。在本次發(fā)布會上,英特爾表示將會把 XeHPG 和 HeHPC 的一部分芯片使用“外部”工藝進行生產(chǎn),如下圖所示。相信這勢必會加速 Xe GPU 的面世時間。
相比之下,XeLP 會使用英特爾 10 納米 SuperFin 工藝生產(chǎn),XeHP 會使用增強的 SuperFin 工藝生產(chǎn)。值得注意的是,最高端的 XeHPC 將使用英特爾的 Foveros 3D 封裝技術,以及 CO-EMIB 互連技術,并采用四種不同的生產(chǎn)工藝,以針對不同的細分領域進行優(yōu)化。
結(jié)語
從 Xe 最初的傳言至今,Xe 的發(fā)展和動態(tài)一直是業(yè)界關心的重點。Xe GPU 的出現(xiàn),從多個維度補充了英特爾當前缺失的多個產(chǎn)品拼圖。首先,它正式宣告英特爾進軍高性能 GPU 領域,并將觸角一次性伸向移動端、桌面端、游戲、數(shù)據(jù)中心、高性能計算等多個領域。此外,Xe GPU 將作為英特爾“向量計算”的代表性產(chǎn)品,進一步補全了英特爾的 AI 產(chǎn)品組合,如下圖所示。
從架構(gòu)和技術的角度,Xe 采用了一種通用的微架構(gòu),并在此基礎上實現(xiàn)了多個系列的演變和快速擴展。這非常符合當前領域細分的芯片設計大趨勢,根據(jù)現(xiàn)有的跑分和演示來看,Xe 和其他競爭對手相比,也有著很強的競爭優(yōu)勢。那么究竟 Xe 能否幫助英特爾沖出重圍,打下一片新的江山,我們拭目以待。