2021國(guó)際超算大會(huì)(SC21)期間,賽靈思宣布推出一款數(shù)據(jù)中心加速器卡 Alveo U55C,以及一款基于標(biāo)準(zhǔn)、API-driven 的集群解決方案,用于大規(guī)模部署 FPGA。這款加速器卡對(duì)賽靈思的特別意義在于:它是賽靈思史上最強(qiáng)大的Alveo加速器卡,專(zhuān)為HPC和大數(shù)據(jù)工作負(fù)載而構(gòu)建,能夠提供 Alveo 加速器產(chǎn)品系列中的最高計(jì)算密度和 HBM 容量。突破性的 HPC 集群解決方案與簡(jiǎn)化的可編程性,支持在現(xiàn)有客戶基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)上實(shí)現(xiàn)大規(guī)模性能擴(kuò)展。
賽靈思數(shù)據(jù)中心事業(yè)部高性能計(jì)算(HPC)產(chǎn)品經(jīng)理Nathan Chang在接受與非網(wǎng)采訪時(shí)表示,高性能計(jì)算正面臨著百億億級(jí)(exascale)挑戰(zhàn),主要體現(xiàn)在三方面:第一,隨著高性能計(jì)算邁向百億億級(jí)大關(guān),功耗即將成為下一難關(guān)。第二,典型的高性能計(jì)算架構(gòu)再難以提供可接受的單位功耗性能,這主要是因?yàn)?a class="article-link" target="_blank" href="/baike/1552575.html">CPU和GPU采用的馮·諾依曼架構(gòu)存在局限性,數(shù)據(jù)遷移帶來(lái)的挑戰(zhàn)導(dǎo)致性能下降。為了最大限度提升性能,就必須在函數(shù)的轉(zhuǎn)換中準(zhǔn)備好數(shù)據(jù),而僵化的存儲(chǔ)器層級(jí)導(dǎo)致效率低下。第三,伴隨以上問(wèn)題,不可避免會(huì)浪費(fèi)時(shí)序周期、降低工作效率、增大功耗。
賽靈思數(shù)據(jù)中心事業(yè)部高性能計(jì)算(HPC)產(chǎn)品經(jīng)理? Nathan Chang
?
他強(qiáng)調(diào),整個(gè)工作負(fù)載遷移和演變的方向,主要是受到存儲(chǔ)器的帶寬限制。如果沒(méi)有辦法解決存儲(chǔ)器帶寬的瓶頸,就沒(méi)辦法利用數(shù)據(jù)中心的規(guī)模。
正因如此,Alveo U55C專(zhuān)為大數(shù)據(jù)和高性能計(jì)算工作負(fù)載構(gòu)建,它能夠?qū)崿F(xiàn)更高的數(shù)據(jù)流水線并行性、帶來(lái)優(yōu)化的存儲(chǔ)器管理、優(yōu)化整個(gè)流水線的數(shù)據(jù)遷移,以及實(shí)現(xiàn)出色的單位功耗性能。
賽靈思執(zhí)行副總裁兼數(shù)據(jù)中心事業(yè)部總經(jīng)理Salil Raje表示:“我們引入了基于標(biāo)準(zhǔn)的方法,可以支持客戶利用現(xiàn)有的基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)創(chuàng)建 Alveo HPC 集群。借助這一方法,我們正將這些主要優(yōu)勢(shì)大規(guī)模應(yīng)用于任意數(shù)據(jù)中心。這是實(shí)現(xiàn) Alveo 和自適應(yīng)計(jì)算在數(shù)據(jù)中心更廣泛應(yīng)用的一次重大飛躍?!?/p>
專(zhuān)為 HPC 和大數(shù)據(jù)應(yīng)用打造
Alveo U55C卡采用單插槽、全高半長(zhǎng)(FHHL)外形尺寸,最大功耗低至150W。與前一代雙插槽Alveo U280卡相比,Alveo U55C提供了更高的計(jì)算密度,還將HBM2容量翻倍至16GB。U55C以更小的外形尺寸提供了更高的算力,有助于創(chuàng)建基于 Alveo 加速器的密集集群。它專(zhuān)為需要性能擴(kuò)展的高密度流式數(shù)據(jù)、高 I/O 數(shù)學(xué)和大型計(jì)算問(wèn)題而開(kāi)發(fā),例如大數(shù)據(jù)分析和 AI 應(yīng)用。
“Alveo U55C非常重要的特性包括:第一就是采用RoCE v2、DCBx、MPI,在現(xiàn)有網(wǎng)絡(luò)和基礎(chǔ)架構(gòu)上,為數(shù)據(jù)中心提供了尖端的計(jì)算集群;第二,應(yīng)用開(kāi)發(fā)人員可以利用Vitis平臺(tái)上已有的一些API、庫(kù)以及MPI,來(lái)擴(kuò)展工作負(fù)載”, Nathan Chang總結(jié)。
?
具體而言,利用現(xiàn)有的開(kāi)放標(biāo)準(zhǔn)和框架,不論所使用的服務(wù)器平臺(tái)和基礎(chǔ)架構(gòu)如何,都可以將Alveo擴(kuò)展到數(shù)百?gòu)埧ǎ肦oCE v2和數(shù)據(jù)中心DCBx的橋接,再加上200Gbps的帶寬,在網(wǎng)絡(luò)性能、延遲方面可以跟 InfiniBand抗衡。
MPI集成則可以幫助HPC開(kāi)發(fā)者通過(guò)Vitis擴(kuò)展Alveo數(shù)據(jù)流水線。通過(guò)Vitis,可以抽象出開(kāi)發(fā)機(jī)器級(jí)代碼的需要,比如RTL或Verilog,另外也能夠讓硬件設(shè)計(jì)嵌入到整個(gè)應(yīng)用的開(kāi)發(fā)過(guò)程中?,F(xiàn)在,Vitis已經(jīng)可以支持更多的高層次編程語(yǔ)言,如C、C++、Python語(yǔ)言等,都開(kāi)始支持現(xiàn)在主流的AI框架,開(kāi)發(fā)人員還可以通過(guò)API和SDK來(lái)加速關(guān)鍵工作負(fù)載。
?
HPC三大用例
用于全球最大射電天文望遠(yuǎn)鏡天線陣列信號(hào)處理
CSIRO 是澳大利亞的國(guó)立研究機(jī)構(gòu),擁有全球最大的射電天文望遠(yuǎn)鏡天線陣列。在CSIRO用于其平方公里陣列( Square Kilometer Array )射電望遠(yuǎn)鏡的信號(hào)處理中,使用了Alveo U55C 卡。將 Alveo 卡部署為配備 HBM 的網(wǎng)絡(luò)附加加速器,能夠在整個(gè) HPC 信號(hào)處理集群中實(shí)現(xiàn)大規(guī)模吞吐量。
Nathan Chang解釋說(shuō),在這個(gè)世界上最大的射電天文望遠(yuǎn)鏡天線陣列中,每平方公里有13.1萬(wàn)支天線,規(guī)模是21個(gè)節(jié)點(diǎn),用了420張U55C卡,每個(gè)節(jié)點(diǎn)是20張卡,在集群里每秒通過(guò)的數(shù)據(jù)是15Tb。可以看到,要處理和通過(guò)的數(shù)據(jù)量非常龐大,并且還需要處理一些非常復(fù)雜的工作負(fù)載,比如光線生成模擬器,以及一些成像相關(guān)的功能。
據(jù)了解,該實(shí)驗(yàn)室也曾考慮過(guò)用GPU卡做集群搭建,但是需要雙插槽GPU卡,要占用兩個(gè)PCIe接口,同時(shí)也需要旁邊的插槽來(lái)處理相關(guān)帶寬需求,才能為板卡提供支持,這就需要三個(gè)PCIe插槽。相比起來(lái),U55C卡有板載聯(lián)網(wǎng)功能,使用的是一個(gè)插槽。
此外,由于該應(yīng)用案例中,電源來(lái)自于可再生能源,對(duì)高性能、低功耗的要求很高。綜上,賽靈思Alveo U55C卡成為了理想選擇?;?Alveo 加速器的集群使 CSIRO 能夠處理海量計(jì)算任務(wù),從 13.1 萬(wàn)根天線中實(shí)時(shí)聚合、過(guò)濾、準(zhǔn)備和處理數(shù)據(jù)。420 張 Alveo U55C 卡通過(guò)支持P4語(yǔ)言的100Gbs交換機(jī)實(shí)現(xiàn)聯(lián)網(wǎng),在整個(gè)信號(hào)處理集群中提供了 460GB/s 的 HBM2帶寬。Alveo U55C 集群的處理性能可達(dá)15Tb/s的總吞吐量,功耗更低且更具成本效益。據(jù)介紹,CSIRO 現(xiàn)正完成一項(xiàng) Alveo 參考設(shè)計(jì),以助力其他射電天文學(xué)或相鄰產(chǎn)業(yè)獲得同樣的成功。
超并行數(shù)據(jù)流水線用于碰撞仿真軟件
第二個(gè)應(yīng)用案例是對(duì)Ansys碰撞仿真軟件LS-DYNA進(jìn)行性能加速。該碰撞仿真軟件幾乎用于全球所有汽車(chē)公司,因?yàn)榘踩院徒Y(jié)構(gòu)系統(tǒng)的設(shè)計(jì)往往取決于模型性能,因其能以計(jì)算機(jī)輔助設(shè)計(jì)有限元方法(FEM)仿真來(lái)降低物理碰撞測(cè)試的成本。
Ansys LS-DYNA FEM 求解器是驅(qū)動(dòng)具備數(shù)億個(gè)自由度仿真的主要算法,而這些龐大的算法可以細(xì)分為更基本的求解器,如 PCG、稀疏矩陣、ICCG。
據(jù)Nathan Chang介紹,賽靈思在與LS-DYNA團(tuán)隊(duì)的合作過(guò)程中發(fā)現(xiàn),他們?yōu)榱酥芜@個(gè)仿真求解器,占用了90%的運(yùn)行時(shí)。由于稀疏矩陣計(jì)算需要大量數(shù)據(jù)訪問(wèn),而現(xiàn)有CPU架構(gòu)并不是非常理想,因?yàn)镃PU緩存量很小,且CPU在訪問(wèn)系統(tǒng)內(nèi)存數(shù)據(jù)的時(shí)候,會(huì)浪費(fèi)一些時(shí)間周期,造成CPU核心利用度不高,導(dǎo)致性能下降。
“這個(gè)設(shè)計(jì)過(guò)程我們把它叫做‘?dāng)?shù)據(jù)流水線’,對(duì)于Alveo開(kāi)發(fā)人員,在設(shè)計(jì)這個(gè)數(shù)據(jù)流水線的時(shí)候,每一個(gè)微小數(shù)據(jù)的調(diào)試都是非常重要的——這保證了我們從一個(gè)函數(shù)到另一個(gè)函數(shù),在數(shù)據(jù)流水線里轉(zhuǎn)移數(shù)據(jù)的時(shí)候,能夠保持好動(dòng)能。同時(shí)數(shù)據(jù)的轉(zhuǎn)移也不會(huì)因?yàn)樽x和寫(xiě)的動(dòng)作而受到限制,因?yàn)槲覀兪褂玫氖强ㄉ系拇鎯?chǔ)器”, Nathan Chang解釋說(shuō),“我們?cè)谶@些數(shù)據(jù)流水線中設(shè)計(jì)了一些微線路,讓數(shù)據(jù)從一個(gè)函數(shù)到另一個(gè)函數(shù)做轉(zhuǎn)移,不用再返回原來(lái)的函數(shù)上,所以我們稱之為定制化數(shù)據(jù)遷移?!?/p>
與x86 CPU 相比,利用超并行數(shù)據(jù)流水線在大量 Alveo卡上進(jìn)行性能擴(kuò)展,LS-DYNA 能夠?qū)崿F(xiàn)超過(guò)5倍的性能加速。這能在一個(gè) Alveo 流水線中提高單位時(shí)鐘周期的工作效率,令 LS-DYNA 客戶受益于突破性的仿真時(shí)間。
為大數(shù)據(jù)圖分析提供加速
TigerGraph是一家圖分析平臺(tái)提供商,使用了多張 Alveo U55C 卡為兩種最高效算法進(jìn)行集群與加速,以驅(qū)動(dòng)基于圖的推薦和集群引擎。
Nathan Chang談到,對(duì)于數(shù)據(jù)科學(xué)家而言,圖數(shù)據(jù)庫(kù)可謂一種顛覆性平臺(tái)。因?yàn)閿?shù)據(jù)孤島越來(lái)越多,圖數(shù)據(jù)庫(kù)能夠?qū)?shù)據(jù)從孤島里提取出來(lái),然后讓數(shù)據(jù)科學(xué)家專(zhuān)注于數(shù)據(jù)之間的關(guān)系,而不是看單張圖。換句話說(shuō),讓關(guān)系成為數(shù)據(jù)庫(kù)第一位重要性的成員。根據(jù)Gartner預(yù)測(cè),到2025年,大約有80%的數(shù)據(jù)庫(kù)會(huì)是圖數(shù)據(jù)庫(kù)。
圖從信息孤島中采集數(shù)據(jù)并重點(diǎn)關(guān)注數(shù)據(jù)間的關(guān)系,圖領(lǐng)域的下一個(gè)前沿是實(shí)時(shí)查找答案,因?yàn)闆](méi)有人愿意為了推薦結(jié)果而多做等待。Alveo U55C 將推薦引擎的查詢和預(yù)測(cè)時(shí)間從數(shù)分鐘縮短至數(shù)毫秒。與基于 CPU 的集群相比,使用多張 U55C 卡擴(kuò)展分析所提供的出色計(jì)算能力和存儲(chǔ)器帶寬,可將圖查詢速度提升高達(dá) 45 倍。質(zhì)量評(píng)分也提升高達(dá) 35%,從而顯著提升置信度,將誤報(bào)幾率降至低個(gè)位數(shù)。
高性能計(jì)算領(lǐng)域FPGA加速器卡優(yōu)勢(shì)何在?
Nathan Chang表示,就目前在規(guī)劃中的HPC架構(gòu)而言,很多都非常專(zhuān)注于某一類(lèi)型的工作負(fù)載,比如在設(shè)計(jì)、構(gòu)建、架構(gòu)方面,都是專(zhuān)門(mén)針對(duì)比較專(zhuān)用的工作負(fù)載。因此不會(huì)像過(guò)去一樣,造非常大的機(jī)架,來(lái)處理非常高的數(shù)據(jù)量,現(xiàn)在更多是搭建專(zhuān)屬的用例。當(dāng)然,高性能計(jì)算總是需要CPU、GPU的,但是一些非常需要靈活性的專(zhuān)用設(shè)備對(duì)FPGA加速器卡有很大需求,并且FPGA具有低功耗優(yōu)勢(shì)。
根據(jù)Nathan Chang分享的一些專(zhuān)門(mén)研究HPC的分析師觀點(diǎn),認(rèn)為加速器業(yè)務(wù)增長(zhǎng)正在勢(shì)頭正猛的關(guān)口,不管是業(yè)務(wù)增長(zhǎng)的速度,還是收入的占比,都超過(guò)了CPU。
“我們認(rèn)為,未來(lái)會(huì)有越來(lái)越多的算力部署在專(zhuān)用加速器領(lǐng)域,而不是通用CPU上。這對(duì)于整個(gè)HPC服務(wù)器集群的降功耗目標(biāo)都是有利的,因?yàn)閷?zhuān)用加速器的功耗更低”, Nathan Chang補(bǔ)充,“高性能計(jì)算領(lǐng)域?qū)τ诟佣鄻踊壹?xì)分的計(jì)算平臺(tái)需求,未來(lái)將不斷增長(zhǎng)?!?/p>
根據(jù)官方消息,Alveo U55C卡目前已可通過(guò)賽靈思官方渠道和授權(quán)分銷(xiāo)商進(jìn)行購(gòu)買(mǎi),該產(chǎn)品也可通過(guò)基于公有云的FaaS(FPGA-as-a-Service,F(xiàn)PGA 即服務(wù))供應(yīng)商進(jìn)行簡(jiǎn)便評(píng)估,也可以通過(guò)選定的托管數(shù)據(jù)中心進(jìn)行專(zhuān)屬預(yù)覽。集群解決方案現(xiàn)已提供專(zhuān)屬預(yù)覽,預(yù)計(jì)將于明年第二季度全面問(wèn)世。?