8月17日消息,斯洛伐克的服務(wù)器芯片設(shè)計(jì)公司Tachyum去年曾推出了128核的Prodigy(神童)處理器,號稱在性能、功耗、成本等方面均吊打英特爾Xeon處理器的。近期,Tachyum又帶來了更為強(qiáng)大的Prodigy 2 處理器,不僅內(nèi)核數(shù)量提升到了192核,同時在緩存容量等眾多方面都有提升。
升級192核心,AI性能翻倍
Tachyum表示,通過利用最新的 EDA 工具,其Prodigy 2 處理器的CPU內(nèi)核由原來的64位128核心升級到了192核心,主頻依然高達(dá)高達(dá)5.7GHz;L2/L3緩存容量也從128MB增加到了192MB;芯片的 SERDES 數(shù)量也從64個增加到了96個;增加了對16×DDR5 7200 內(nèi)存的支持;還擁有48個PCIe 5.0控制器。單個Prodigy芯片可連接多達(dá)32個DIMM。
性能方面,在AI訓(xùn)練和推理任務(wù)中,能夠?qū)崿F(xiàn)24個AI PetaFLOPS,相比上一代AI性能翻倍;在HPC(高性能計(jì)算)負(fù)載中,可達(dá)到90 TeraFLOPS。
雖然官網(wǎng)的資料顯示192核心的Prodigy 2?是基于5nm工藝,但是今年6月的一篇新聞稿顯示,Prodigy 2可能將會升級成3nm工藝。
以上的諸多提升,也使得Prodigy 2 處理器die size從 500mm2增加到 600mm2,增加了 20%。后續(xù),Prodigy 處理器可能還會進(jìn)一步增加內(nèi)核數(shù)量,但芯片將會受到帶寬限制。目前Prodigy 2 支持的是 16 通道 DDR5 內(nèi)存接口,速度可達(dá) 7200 MT/s 及以上,如果要增加額外的內(nèi)核,就需要更高速的內(nèi)存,比如HBM。預(yù)計(jì)這款處理器將會在2025年推向市場。
全新“萬能CPU”架構(gòu)
需要指出的是,Tachyum公司所設(shè)計(jì)的Prodigy處理器號稱是全球首個真正的“通用處理器”。
不同于傳統(tǒng)的CPU和GPU解決方案,Prodigy旨在將 CPU、GPGPU 和 TPU 的功能統(tǒng)一到同一個內(nèi)核當(dāng)中,并配備強(qiáng)大向量計(jì)算單元和矩陣計(jì)算單元,讓HPC和AI工作負(fù)載在同一架構(gòu)上運(yùn)行。單顆核心就可以支持廣泛的數(shù)據(jù)類型,包括 FP64、FP32、TF32、BF16、Int8、FP8 和 TAI。更為關(guān)鍵的是,Prodigy還可以運(yùn)行x86、Arm、RISC-V的二進(jìn)制文件??胺Q“萬能CPU”。
據(jù)此前外媒chipsandcheese此前的分析,Prodigy的內(nèi)核架構(gòu)是將GPU的矢量吞吐量與CPU的單線程性能相結(jié)合,但代價是高功耗。不過,他們認(rèn)為Prodigy有可能成為具有競爭力的 HPC 或 AI 芯片。
性能吊打英特爾Xeon和NVIDIA H100?
資料顯示,Tachyum于2022年發(fā)布的上一代的Prodigy處理器擁有64核心(T864)及128核心(T16128)兩個版本。其中64核心版本,主頻4GHz,基于臺積電7nm工藝。而128核心版本,基于5nm工藝,F(xiàn)CLGA封裝,尺寸為64毫米×84毫米,工作頻率高達(dá)5.7GHz,擁有超過128MB的L2+L3高速緩存、16個DDR5內(nèi)存控制器和64個PCIe5.0通道,可以處理通用計(jì)算、高性能計(jì)算(HPC)和AI工作負(fù)載。
Tachyum表示,Prodigy處理器每個核心能夠擁有2x 1024位矢量單元(英特爾Golden Cove核心也只有2×?512 位向量單元),4096位矩陣單元,以及每時鐘4條失序指令。還可支持虛擬化和高級RAS。
當(dāng)時Tachyum公司還宣稱,128核版的Prodigy超級計(jì)算機(jī)芯片在HPC(高性能計(jì)算)負(fù)載中,能夠執(zhí)行12個AI PetaFLOPS和90 TeraFLOPS,性能是英特爾最快的Xeon處理器的4倍,是英偉達(dá)(NVIDIA) H100 GPU的雙精度浮點(diǎn)性能的3倍;在 AI 工作負(fù)載中,F(xiàn)P8性能是NVIDIA H100的6倍。同時,Prodigy處理器電源效率也達(dá)到了Xeon處理器的10倍,而且成本大約只有傳統(tǒng)硬件的三分之一。
從Tachyum公司的描述來看,128核的Prodigy處理器的AI性能可直接吊打英特爾Xeon、NVIDIA H100,并且能效也更高,成本還更低。更為關(guān)鍵的是,還能運(yùn)行x86、Arm、RISC-V的二進(jìn)制文件。也就是說,可以直接兼容x86、Arm、RISC-V生態(tài),簡直是強(qiáng)大的離譜!對此,外界一直是持懷疑高度態(tài)度,認(rèn)為是“PPT造芯”。
相比之下,最新的192核的Prodigy處理器在在AI訓(xùn)練和推理性能方面,提升到了24個AI PetaFLOPS??磥硇阅芨且醮蛴⑻貭朮eon了。
有意思的是,目前Tachyum公司的官網(wǎng)已經(jīng)看不到了關(guān)于64核心(T864)及128核心(T16128) Prodigy處理器的介紹,僅保留了更早之前的48核心(T848)及96核心(T896) Prodigy處理器,以及最新發(fā)布的196核心(T16192)Prodigy處理器。如此看來,48核心(T848)及96核心(T896) Prodigy處理器已經(jīng)被取消。
不過,Tachyum公司官網(wǎng)上仍留有關(guān)于Prodigy處理器“在性能在優(yōu)于Xeon的前提下,耗電僅為Xeon的十分之一”、“每MIPS (每秒百萬條指令)只有Xeon三分之一的售價”、“數(shù)據(jù)中心年度總體建立成本降低4倍”之類的描述。
Tachyum在推出性能更強(qiáng)的192核心的Prodigy 2 處理器的同時,還推出了基于其Prodigy 2通用處理器和液體/空氣混合冷卻的百億億次級(E級)人工智能超級計(jì)算機(jī)的設(shè)計(jì)。該設(shè)計(jì)將在60MW的功率預(yù)算和6,000平方英尺的占地面積中提供20 ExaFlops的FP64矢量運(yùn)算性能。
已獲得歐盟2640萬歐元支持
值得一提是,Tachyum雖然是一家斯洛伐克芯片設(shè)計(jì)公司,但實(shí)際上其是于2016年由多位資深半導(dǎo)體大咖在美國硅谷成立的,只不過,Tachyum在獲得斯洛伐克政府的1700萬美元投資之后,就將總部設(shè)在了斯洛伐克。
Tachyum公司CEO Radoslav Danilak曾是SSD主控廠商SandForce(2011年被LSI收購)和Skyera(2014年被西部數(shù)據(jù)收購)的創(chuàng)始人,此外還曾擔(dān)任過NVIDIA的芯片組和GPU架構(gòu)師、Nishan Systems和Toshiba的CPU架構(gòu)師,擁有25年的半導(dǎo)體行業(yè)經(jīng)驗(yàn);公司聯(lián)合創(chuàng)始人兼首席架構(gòu)師Rodney Mullendore 曾是SandForce的首席硬件架構(gòu)師、Nishan Systems的聯(lián)合創(chuàng)始人,擁有30多年半導(dǎo)體行業(yè)從業(yè)經(jīng)驗(yàn)。
得益于斯洛伐克芯片設(shè)計(jì)公司的身份,在今年6月,包括Tachyum在內(nèi)的來自歐盟的56家公司,獲得了歐盟81億歐元的資金支持,作為此前宣布的歐洲共同利益微電子和通信技術(shù)重要項(xiàng)目 (IPCEI ME/CT) 的一部分。其中,Tachyum獲得了 2640 萬歐元的支持,以加速Prodigy 2 通用處理器的交付。
編輯:芯智訊-浪客劍