?
- Naples 首個基準測試顯示,AMD 這個新的頂級企業(yè)解決方案配備了 32 個核心。
- 然而,與英特爾現(xiàn)有的頂級企業(yè)雙 CPU 解決方案 - 英特爾至強 E5-2699 v4 相比,這些基準測試仍然表現(xiàn)出極低的性能。
- 即使 Naples 只是工程樣片,Geekbench 軟件擴展性不佳,也沒有那么準確,但這仍然不足以抹煞 Naples 與英特爾對標產(chǎn)品之間的巨大差異。
- Geekbench 基準測試顯示 Naples 配備了 512 MB 的 L3 緩存,但這很可能只是程序上對關(guān)聯(lián) / 共享緩存的讀取錯誤。
- 雖然 AMD 的 Naples 企業(yè)解決方案看起來沒有那么出色,但 AMD CPU/APU 部門的真正希望可能來自未來的 APU Raven Ridge(2017 年中期)和 Gray Hawk(2019/2010)。
AMD 即將推出企業(yè)解決方案“Naples”。據(jù)稱,這款 CPU 配備多達 32 個核心和 64 個線程,以便能夠在企業(yè)計算和服務(wù)器市場具有競爭力。
我一度相信,這個 CPU 將是對 AMD 現(xiàn)有解決方案的一個持續(xù)改進,但如果我們看看最近的基準測試報告,會發(fā)現(xiàn)與英特爾的實際產(chǎn)品相比,AMD 依然掉隊很多。
架構(gòu)
由于 Naples 采用了 Zen 架構(gòu),所以其架構(gòu)實現(xiàn)和改進基本上和已經(jīng)披露的 Zen 相同:采用 SMT(同步多線程)技術(shù)、每個 BTB(分支目標緩沖器)使用雙路徑改進分支預(yù)測性能、增加了高速緩存容量、更高的緩存帶寬、更大的調(diào)度器、四發(fā)射 FPU、裝載 FPU 時間從 9 個周期下降為 7 個周期、堆棧引擎等等。
改進這么多,但我想重點突出一下 L3 緩存系統(tǒng):Naples 由多達 8 個塊(或 CPU complex - CCX)組成,每個 CCX 含有 4 個內(nèi)核,每個內(nèi)核都有各自的 L0、L1 和 L2 緩存,同時,每個 CCX 還包括具有 16 個關(guān)聯(lián)路徑的 8MB L3 高速緩存,分配到每個內(nèi)核 2MB,而且每個 2MB 的塊被劃分為兩個大小為 1MB 的子區(qū)。
必須強調(diào)的是,L3 高速緩存是完全包含和完全共享的。
?
Geekbench 基準測試
上個月,Naples 的幾項 Geekbench 基準測試結(jié)果遭到泄漏,這些結(jié)果向我們描繪了 Naples 的性能水平。
第一項 Geekbench 4 基準測試顯示,Naples 單線程測試結(jié)果為 1141,多線程測試結(jié)果為 15620。需要特別指出的是,在這項基準測試中,L3 緩存大小被錯誤讀取為 0 Kb。
第二項 Geekbench 3 基準測試顯示,Naples 單線程測試結(jié)果為 984,多線程性能介于 15041 和 16957 之間。WCCFTECH 認為,第二項基準測試的結(jié)果要好于第一項基準測試。但這種判斷有點武斷,因為和 Geekbench 4 相比,Geekbench 3 給出的跑分結(jié)果通常都會高出 10-15%。
因此,在這里談?wù)撃膫€結(jié)果更好是沒有意義的,測試基準不同,很難相提并論。
對比 Xeon E5-2699 V4
由于這個 32 個核心的 Naples 版本預(yù)計將成為 AMD 的頂級 CPU,所以我想將其與英特爾現(xiàn)有的配置最類似的產(chǎn)品進行比較,即至強 E5-2699 V4,它有兩個 CPU,每個 CPU 集成了 22 個核心。所以,我們的兩個比較對象分別是英特爾的 44 個核心、88 個線程的至強 E5-2699 V4 和 AMD 的 64 個核心、128 個線程的 Naples。
以在 Linux 下運行最慢的 Geekbench 3 基準測試為例,英特爾這款產(chǎn)品的單線程測試結(jié)果為 2507(比 AMD 高出 155%),多線程測試結(jié)果為 81629(比 AMD 高出 381%)。
很明顯,差異是巨大的,不過這種差異可能是由以下幾個因素造成的:
1、Naples 研發(fā)進度落后于既定的發(fā)展路線圖,考慮到 Zen 架構(gòu)馬上就要問世,而且 Naples 同樣使用 Zen 架構(gòu),這有點說不大過去。
2、Naples 可能只是在基本時鐘頻率下運行的,但這不足以抹煞兩者之間的巨大性能差異。
3、有可能受到 Geekbench(或運行系統(tǒng))讀取 L3 緩存容量錯誤的影響,如果緩存沒有正確工作,性能也將受到影響(但影響幅度不會這么大)。
4、由于我們討論的是雙處理器配置,雖然 Geekbench 的擴展比率不高,也有可能其中一個 CPU 確實沒有工作起來。而且,Naples 實際上達到了 17 倍的擴展比率,而英特爾 2 個 CPU 達到 23 倍的擴展比率,單個 CPU 達到 15 倍的擴展比率。不管是不是有一個 CPU 沒有工作,它們之間的性能差異仍然太巨大了。
顯然,AMD 設(shè)計 Naples 的目的是為了殺入服務(wù)器市場,這顆芯片具有大量的虛擬化功能,得益于每個 CPU 集成 32 個核心、64 線程,所以具備大量的獨立運行線程,但是,只有在它的性能可以和競爭對手一較高低時,AMD 才能發(fā)揮出 Naples 這些優(yōu)勢。而且,英特爾將在不久的將來發(fā)布其新的 Skylake 服務(wù)器 CPU 和 Xeon Phi 多格式解決方案。
?
Xeon Skylake 和 Xeon Phi
英特爾目前正在為服務(wù)器和深度學(xué)習(xí)目標市場發(fā)布新的插槽,新插槽的尺寸令人驚訝,它幾乎是 LGA 2011-3 的兩倍大小。
LGA 3647 旨在支持新的 Xeon Phi CPU-Knights Landing,這顆 CPU 配備 16 GB 的 3D MCDRAM(一種類似于 HBM 的英特爾專屬 3D 內(nèi)存)和 72 個增強型 Silvermont 核心(兼容 Haswell)、多增加了 2 個 AVX 512 位 VPU,這個 CPU 尺寸不小,還配備了 6 個 DDR 通道。
這個 CPU 能夠在二進制級別上兼容 Haswell,基本上能夠自動地以套接字或協(xié)處理器模式運行,大大提高了英特爾解決方案的計算能力,它同時采用了 4 SMT 架構(gòu),可以在每個核心上運行四個線程,也進一步增強了計算能力。在協(xié)處理器目標應(yīng)用市場,該方案正面臨來自英偉達的競爭威脅,AMD 同時也要在 2017 年中發(fā)布其基于 Zen 和 GCN 架構(gòu)、集成 HBM 模塊的企業(yè)級 APU 進入這個市場。不過,考慮到核心數(shù)量預(yù)計提升不多以及性能差異不大,很難想象 AMD 于 2017 年發(fā)布的新產(chǎn)品會給英特爾現(xiàn)有的產(chǎn)品帶來多么強的競爭壓力。由于熱功耗的限制,集成了 GCN GPU 和 HBM 模塊的 Naples CPU 不會實現(xiàn)太大的性能提升。因為,Naples CPU 的總設(shè)計功耗預(yù)計為 150W。事實上,有傳言談到一個搭載北極星架構(gòu) GPU 的 16 核心版本 Naples,它能夠在 32 位下實現(xiàn) 4 TFLOPS 的運算能力,想挑戰(zhàn)英特爾具備完全自主優(yōu)勢,32 位運算能力能達到 6 TFLOPS 的 Knights Landing,這個指標有點太低了。而且,AMD 這款產(chǎn)品只有 32 個線程、4 個 DDR 通道,英特爾的 Knight Landing 則有 288 個線程、6 個 DDR 通道,所以這款傳言產(chǎn)品和英特爾的目標市場在本質(zhì)上是不同的,而且 AMD 的 APU 不能使用集成 GPU 運行一些通用的線程,通用線程是在 CPU 上運行的。
我們還必須考慮到,英特爾將在 2017 年年底和 2018 年之間發(fā)布其 10 nm CPU,而基于 10 nm 光刻技術(shù)的 Knights Hill 和 Knights Mill 也將在 2018 年推出,這將再次帶來一貫的性能升級。
相反,AMD 將在 2018 年年底發(fā)布其 12nm 產(chǎn)品,2019 年年底發(fā)布 7nm 產(chǎn)品。
此外,英特爾將把 LGA 3647 插槽用于 Skylake 處理器,這就意味著有可能出現(xiàn)比傳聞的 26-28 核心數(shù)更多的 CPU 版本,這意味著 Naples 核心數(shù)量的相對優(yōu)勢有可能不存在。Skylake 還將集成 100G OmniPath 互連、AVX 512 指令集、Cannonlake 圖形,并將在收購 Altera 之后第一次集成 FPGA:這將是一個性能出色的組合,肯定會吸引許多客戶。
Naples 的 L3 高速緩存問題
另一個必須強調(diào)的事情是 L3 高速緩存問題:最新的基準測試結(jié)果顯示,Naples 每個 CCX 配備了 64MB L3 緩存,這就意味著每個 CPU 提供驚人的、高達 512MB 的 L3 緩存,各個網(wǎng)站都對這個巨大的數(shù)字很興奮,但是,這個數(shù)據(jù)有可能是完全錯誤的。
這可能是由 Geekbench 的一些讀取錯誤引起的,考慮到緩存是完全共享的和包容的,這種錯誤也是很容易解釋的。Naples 基于 Zen 架構(gòu),考慮為每個核心使用 2MB 的 L3 緩存,每個 CCX 有四個核心,Naples 由 8 個 CCX 組成,可以得出 L3 緩存的大小總共為 64MB。關(guān)于這個問題,考慮到 Geekbench 做基準測試的架構(gòu)不是 AMD 官方提供的,所以很容易遇到這些程序錯誤。
此外,從制造工藝的角度,如果我們使用英特爾密度更高的 14nm 光刻技術(shù)構(gòu)建 512MB 的 L3 緩存,裸片尺寸幾乎就要達到 1000mm2,這還僅僅是用于 L3 緩存的:這種尺寸幾乎是英偉達 GP100 裸片尺寸的兩倍。我們還沒有考慮其他組件,如 32 個 CPU 內(nèi)核、指令高速緩存、多媒體解碼器和編碼器、4 個內(nèi)存控制器、其他控制器等。單從制造上來講,這基本上是不可行的,而且非常昂貴,這種大尺寸高速緩存的可用性也是很值得質(zhì)疑的。
?
要點
盡管 AMD 的 Naples 和 Snowy Owl 距離正式發(fā)布還有很長一段時間,但是考慮到這些基準測試結(jié)果,拿它來對標英特爾即將發(fā)布的新解決方案是不合適的,至少現(xiàn)在看來是這樣。
的確,這些只是初步的基準測試結(jié)果,但是考慮到 Naples 使用的是在未來三四個月就要上市的 Zen 架構(gòu),它不可能那么落后于既定的發(fā)展路線圖。
Snow Owl(企業(yè)級 APU)仍然沒有基準測試結(jié)果問世,但是看起來它也不會提供多么強大的性能。它將有 16 個核心,并將配備 HBM 模塊以及等價于實際的北極星 10 之類的模塊,以實現(xiàn) 32 位下的 4+ TFLOPS 性能。用它來對抗傳統(tǒng)的 Xeon CPU 或 Knights Landing 有點太不自量力了。英特爾的 Knights Landing 集成了 3D MCDRAM、6 個 DDR 通道、6+ TFLOPS 32 位運算能力、72 個核心、288 個線程,而且因為與 Haswell 二進制兼容,所以能夠利用對 Haswell 的每次優(yōu)化。這就夠 AMD 喝一壺的了,更不用說具有 6 個 DDR 通道、集成 FPGA、英特爾 OmniPath 的 Xeon Skylake,或者預(yù)計將在 2018 年上市的 Knights Hill/Knights Mill 組合了。
AMD 可能真正給英特爾制造麻煩的是在消費級 APU 市場,那些客戶想用集成顯卡玩中低級別的游戲,并獲得良好的圖形效果。AMD 可以發(fā)布集成單個 HBM 模塊的 Raven Ridge 解決方案,實現(xiàn) 128 GB/s 的視頻內(nèi)存帶寬和 768 個 GPU 內(nèi)核。問題是,要發(fā)布的 APU 的 TDP 必須在 45W 以下,將集成 4 個 CPU 內(nèi)核,而且 HBM 模塊也會發(fā)熱并消耗一些功率,這意味著 GPU 進行圖形運算的 TDP 最大為 20-25W。因此,集成 GPU 可能需要在 1G+Hz 左右的頻率下提供 1.5+ TFLOPS 的 32 位計算能力。
例如,運行游戲《古墓麗影 - 崛起》的獨立顯卡 M385X:在 Notebookcheck 進行的測試中,它在 FHD 中的分辨率接近 20 fps,但未來的集成顯卡可能實現(xiàn) M385X 約 0.85 倍(考慮到架構(gòu)改進)的性能,分辨率約為 17 fps。在同等的條件下,英特爾現(xiàn)在的高清顯卡的得分為 12.2 fps,兩者差距不是很大??紤]到 Kaby Lake 顯卡能夠在圖形性能上提升大約 20/40%,所以這兩種頂級 APU/SOC 之間差異不會很大。 無論如何,這才是 AMD 可能與英特爾一較高下的領(lǐng)域,也是 AMD 必須集中精力的所在,因為筆記本電腦市場可能會帶來一些積極的戰(zhàn)果。
更多有關(guān) AMD 的資訊,歡迎訪問 與非網(wǎng) AMD 專區(qū)
與非網(wǎng)編譯,未經(jīng)許可,不得轉(zhuǎn)載!