關注我們

掃碼關注
獲取工程師必備禮包
板卡試用/精品課

設計助手

電子硬件助手

元器件查詢

加入星計劃，您可以享受以下權益：

創(chuàng)作內容快速變現(xiàn)
行業(yè)影響力擴散
作品版權保護
300W+ 專業(yè)用戶
1.5W+ 優(yōu)質創(chuàng)作者
5000+ 長期合作伙伴

立即加入

深度剖析英特爾Xe GPU，向量計算補全自身AI產(chǎn)品組合

2020/08/31 作者：老石

137

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

在 8 月中旬結束的英特爾 2020 架構日活動里，英特爾發(fā)布了包括 Tiger Lake SoC、Xe GPU、SuperFin 晶體管工藝、FPGA 路線圖、oneAPI 框架等一系列最新的技術進展。這些技術和產(chǎn)品涵蓋了工藝、架構、存儲、互連、安全、軟件六大層面，這也是英特爾首席架構師 Raja Koduri 一直在主推的英特爾全棧式軟硬件架構。

Xe GPU 是英特爾近年來重點研發(fā)的下一代 GPU 架構。和英特爾之前的集成 GPU 不同，Xe 更多的是一個基礎 GPU 架構，由此可以衍生出多種針對不同應用領域和場景的 GPU 產(chǎn)品。這次正式發(fā)布的 Xe GPU 產(chǎn)品系列，從主打集成顯卡和入門級獨立顯卡的 XeLP，到針對游戲和桌面性能進行優(yōu)化的 Xe HPG，再到主要應用于數(shù)據(jù)中心和 AI 的 Xe HP，然后還有面向高性能計算的 Xe HPC，一共四大系列。

特別值得注意的是，這四類 Xe GPU 將使用不同的半導體制作工藝進行流片生產(chǎn)，其中不僅包含英特爾自家的 10 納米工藝，以及這次發(fā)布的下一代 10 納米 SuperFin 工藝，還包含了來自其他代工廠的工藝。雖然在發(fā)布會上沒有直接點名，但臺積電以 6 納米工藝拿下英特爾數(shù)十萬片芯片訂單的消息，早就是公開的“秘密”了。

在今年的 HotChips 大會上，英特爾對 Xe 架構進行了深入介紹?？梢钥吹?，Xe GPU 毫無疑問被英特爾寄予厚望。Xe 的出現(xiàn)，正式宣布英特爾進軍高性能 GPU 領域，也完成了英特爾的 Scalar（CPU）、Vector（GPU）、Matrix（ASIC）、Spatial（FPGA）四大計算類型的芯片全覆蓋。

在這篇文章中，我將從硬件架構、軟件堆棧、應用場景等領域對 Xe GPU 進行深入的技術解析。我用思維導圖的形式，總結了本文涉及的全部技術要點。

?

Xe 架構的主要特點

Xe 的主要設計思路有三點：軟件先行、兼顧擴展、全新應用。這表明 Xe 并非是作為一個孤立的產(chǎn)品出現(xiàn)，而是會結合英特爾完整的硬件產(chǎn)品組合、以及統(tǒng)一的軟件開發(fā)環(huán)境而協(xié)同設計。Raja 多次強調，希望使用相同的軟件棧、相同的微架構設計，實現(xiàn)多個 Xe 產(chǎn)品的快速擴展，這在后面的文章中也會多次提及。

Xe 的主體架構基于 Slice 實現(xiàn)，最多有 6 個 subSlice，共計高達 96 個 EU（Execution Unit），能提供每周期 1536 次浮點運算。

和英特爾的前一代集顯相比，XeLP 幾乎重新設計了自身的微架構，特別是最基本的運算執(zhí)行單元 EU。XeLP 的 EU 架構示意圖如下所示。

在英特爾的第 11 代集顯中，每個 EU 里包含 8 個用來進行算術運算的流水線。為了得到更高的算術運算性能，XeLP 將 EU 里的算術運算流水線擴展了一倍，達到 16 條。這些算術運算流水線可以執(zhí)行定點數(shù)、單精度浮點數(shù)和雙精度浮點數(shù)運算，以及復雜數(shù)學運算和可選的矩陣運算的擴展。每條流水線的寬度都比上一代得到了增加，從而將 INT16 和 INT32 的性能提升了一倍。事實上，為了簡化實現(xiàn)過程，XeLP 將上一代集顯的兩個 EU 單元合并在一起，并共用一個線程管理模塊。

在存儲系統(tǒng)方面，XeLP 重新設計了 L1 Cache，并將 L3 Cache 的容量提升到了 16MB。此外還將顯卡內存的帶寬增加了一倍。

XeLP 的游戲性能

XeLP 主要的市場定位是集成顯卡以及入門級獨立顯卡。即便如此，XeLP 也對游戲性能進行了針對性的優(yōu)化。下面就是一些在 XeLP 上運行的游戲截圖，例如，XeLP 可以支持戰(zhàn)地 5 在 1080p、30FPS 和特效全開時的流暢運行。?

在具體的優(yōu)化方面，首先就是在保持相同性能的前提下，大幅降低了功耗。例如，下圖展示了在運行戰(zhàn)地 1 的時候，英特爾前一代 GPU 和 XeLP 的畫面和功耗對比?？梢钥吹剑诋嬞|相似的情況下，前一代 GPU 的功耗為 25 瓦，而 XeLP 僅為 15 瓦。此外，XeLP 還對幀率進行了提升，這也能很大程度上避免掉幀，使得畫質表現(xiàn)更為細膩，在下圖中坦克的履帶部分也能較為明顯的看出來。

正因如此，在相同功耗條件下，XeLP 可以在保證穩(wěn)定幀數(shù)的同時，帶來更高質量的畫面效果。下圖就對比了前一代 GPU 和 XeLP 的畫面渲染能力和畫質。可以看到，XeLP 的細節(jié)表現(xiàn)能力要遠超于前一代 GPU，比如對陰影部分和車體細節(jié)的刻畫等等。

在跑分方面，和同級別的英偉達 GeForce MX350、以及 AMD 的 Vega8 相比，XeLP GPU 跑出了更高的評分，見下表：

值得注意的是，這里參與跑分的是集成在 Tiger Lake 里的集成 Xe GPU，但它的跑分竟稍微超過了英偉達的獨立顯卡 MX350。要知道，后者不僅有更高的頻率，還有 2GB 的 GDDR5 顯存。這也從另外一個角度印證了 Xe 的性能潛力。

對 AI 運算的優(yōu)化

在英特爾最新的 Tiger Lake 架構中，包含了名為 Willow Core 的全新 CPU 內核單元，以及 XeLP 的集顯版本。關于 Tiger Lake 和 Willow Core 的詳細技術解讀，將會在下篇文章里進行深入介紹。這里想提到的是，Tiger Lake 里的 XeLP 還對 AI 運算進行了一定的架構優(yōu)化。當結合 OpenVINO 工具包和英特爾的 DL Boost 技術時，就可以大幅提升 AI 推斷的算力。如下圖所示，當運行 Gigapixel AI 進行圖像增強時，XeLP 和前兩代 GPU 相比取得了指數(shù)級的算力提升。

對多媒體和顯示的優(yōu)化

XeLP 對于多媒體和顯示方面的優(yōu)化，主要的受眾就是廣大的視頻和圖像內容創(chuàng)作者。這方面的優(yōu)化主要有三個主要方向，即提供更多的像素、更多色彩、以及更低的功耗。

具體來說，XeLP 里集成了多媒體引擎（Media Engine），它支持 4K/8K60 幀視頻、Dolby 視界 HDR 等一系列超高清視頻標準，在編解碼吞吐量上達到了最高 2 倍的性能提升。

在 XeLP 的顯示引擎（Display Engine）里，集成了 4 條像素處理流水線，使得 XeLP 支持包括 DisplayPort1.4、HDMI2.0、USB4 Type-C 等多種視頻接口，以及 8K UHD、HDR10 和杜比視界等多種超高清視頻的播放。

關于多媒體引擎和顯示引擎的具體架構細節(jié)，可以參見 Xe 在 HotChips2020 上的幻燈片，已上傳至知識星球。

Xe GPU 的軟件堆棧

Xe 作為一個全新的 GPU 產(chǎn)品系列，它的一個主要優(yōu)化重點就在于軟件系統(tǒng)的設計。它的設計重心，就是為現(xiàn)在和未來的 Xe 架構使用統(tǒng)一的驅動協(xié)議棧，這與英特爾 oneAPI 的核心思想是一致的。oneAPI 是英特爾在軟件層面最大的雄心，關于 oneAPI 的更多內容，可以看一下老石之前的文章《oneAPI：天下大同》。

相比之前的集成顯卡系列，Xe GPU 對軟件驅動的架構做了很多大刀闊斧的改變。其中最主要的有三點：更高效的編譯器、全新的 DirectX11 驅動，以及 GPU Profile（見下圖）。此外，Xe 還支持對特定游戲的針對性優(yōu)化，名為 Instant Game Tuning。這種優(yōu)化方式會自動進行，不需要進行額外的驅動更新。

Xe GPU 的產(chǎn)品系列和制造工藝

前面介紹的 XeLP，主要將作為 TigerLake SoC 里的集成 GPU 面向市場。但除此之外，XeLP 還有其他兩種產(chǎn)品形式，一個稱為 DG1，另一個稱為 SG1。其中，DG1 是英特爾的首個獨立顯卡產(chǎn)品，它主要面向的是基于移動平臺的視頻和圖像內容創(chuàng)作者。SG1 是另一個基于 XeLP 架構的獨立顯卡產(chǎn)品，它主要面向的則是數(shù)據(jù)中心里的多媒體內容處理和相關應用。

對于數(shù)據(jù)中心更廣闊的應用場景，Xe 有一款名為 XeHP 的 GPU 產(chǎn)品專門負責。和 XeLP 相比，XeHP 在微架構上專門為數(shù)據(jù)中心做了優(yōu)化，以提升 GPU 的整體性能。例如，XeHP 的 EU 數(shù)量，從 XeLP 的幾十個，直接增加到上千個；運行頻率比 XeLP 上升兩倍；顯存帶寬和 IPC 也比集成顯卡提升 10 倍，等等。此外，XeHP 還特別設計了數(shù)學運算單元，比如增強了對雙精度浮點數(shù)和 AI 相關的數(shù)學運算的硬件支持。

更有意思的是，XeHP 還能通過直接增加 Tile 的數(shù)量，實現(xiàn)性能的線性增長。例如，XeHP 目前有三種封裝形式，分別包含了 1 個、2 個和 4 個 Tile，其中每個 Tile 就是一個完整的 Xe GPU 子芯片。

從下面的實驗室測試實例可以看到，當增加 Tile 的數(shù)量時，芯片的 FP32 峰值算力從 10TFLOPS，線性上升到 21TFLOPS 和 42TFLOPS。

這種線性擴展的最大優(yōu)勢在于，在一次性完成單個 Tile 的軟硬件設計之后，直接通過增加 Tile 的數(shù)量就可以成倍提升性能，而無需對軟硬件做出改變或重新設計。事實上，這樣的線性擴展并沒有看起來這么直接，這其中涉及了諸如芯片封裝、互連、軟硬件架構的擴展性設計等很多方面的內容。這和英特爾 FPGA 里使用的，通過 EMIB 和 AIB 技術將 FPGA 的可編程邏輯陣列與不同收發(fā)器模塊進行互連，有著異曲同工之妙。

Xe 的第三個產(chǎn)品大類，名為 XeHPG，它專門針對游戲和高性能桌面應用進行了優(yōu)化，比如增加了光線追蹤（Ray-Tracing）的硬件支持等等。XeHPG 預計 2021 年正式出貨。

Xe 的最后一個產(chǎn)品系列，就是代號為 Ponte Vecchio 的 XeHPC，它主要面向高性能計算、超級計算機等領域進行優(yōu)化和設計。

前不久英特爾宣布，自家的 7 納米工藝遇到問題，并將投產(chǎn)時間推遲到 2022 年，這也造成了英特爾股價暴跌近 20%。隨后英特爾宣布，會考慮和其他芯片代工廠合作，并外包部分芯片產(chǎn)品。正如本文開頭提到的，臺積電隨后獲得了英特爾的 18 萬片 6 納米芯片訂單。

這些訂單中的很大一部分，就來自 Xe GPU 系列。在本次發(fā)布會上，英特爾表示將會把 XeHPG 和 HeHPC 的一部分芯片使用“外部”工藝進行生產(chǎn)，如下圖所示。相信這勢必會加速 Xe GPU 的面世時間。

相比之下，XeLP 會使用英特爾 10 納米 SuperFin 工藝生產(chǎn)，XeHP 會使用增強的 SuperFin 工藝生產(chǎn)。值得注意的是，最高端的 XeHPC 將使用英特爾的 Foveros 3D 封裝技術，以及 CO-EMIB 互連技術，并采用四種不同的生產(chǎn)工藝，以針對不同的細分領域進行優(yōu)化。

結語

從 Xe 最初的傳言至今，Xe 的發(fā)展和動態(tài)一直是業(yè)界關心的重點。Xe GPU 的出現(xiàn)，從多個維度補充了英特爾當前缺失的多個產(chǎn)品拼圖。首先，它正式宣告英特爾進軍高性能 GPU 領域，并將觸角一次性伸向移動端、桌面端、游戲、數(shù)據(jù)中心、高性能計算等多個領域。此外，Xe GPU 將作為英特爾“向量計算”的代表性產(chǎn)品，進一步補全了英特爾的 AI 產(chǎn)品組合，如下圖所示。

從架構和技術的角度，Xe 采用了一種通用的微架構，并在此基礎上實現(xiàn)了多個系列的演變和快速擴展。這非常符合當前領域細分的芯片設計大趨勢，根據(jù)現(xiàn)有的跑分和演示來看，Xe 和其他競爭對手相比，也有著很強的競爭優(yōu)勢。那么究竟 Xe 能否幫助英特爾沖出重圍，打下一片新的江山，我們拭目以待。

人工客服
（售后/吐槽/合作/交友）