国产69精品久久久久9999,2021最新国产福利片

2021國(guó)際超算大會(huì)(SC21)期間，賽靈思宣布推出一款數(shù)據(jù)中心加速器卡 Alveo U55C，以及一款基于標(biāo)準(zhǔn)、API-driven 的集群解決方案，用于大規(guī)模部署 FPGA。這款加速器卡對(duì)賽靈思的特別意義在于：它是賽靈思史上最強(qiáng)大的Alveo加速器卡，專(zhuān)為HPC和大數(shù)據(jù)工作負(fù)載而構(gòu)建，能夠提供 Alveo 加速器產(chǎn)品系列中的最高計(jì)算密度和 HBM 容量。突破性的 HPC 集群解決方案與簡(jiǎn)化的可編程性，支持在現(xiàn)有客戶基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)上實(shí)現(xiàn)大規(guī)模性能擴(kuò)展。

賽靈思數(shù)據(jù)中心事業(yè)部高性能計(jì)算（HPC）產(chǎn)品經(jīng)理Nathan Chang在接受與非網(wǎng)采訪時(shí)表示，高性能計(jì)算正面臨著百億億級(jí)（exascale）挑戰(zhàn)，主要體現(xiàn)在三方面：第一，隨著高性能計(jì)算邁向百億億級(jí)大關(guān)，功耗即將成為下一難關(guān)。第二，典型的高性能計(jì)算架構(gòu)再難以提供可接受的單位功耗性能，這主要是因?yàn)?a class="article-link" target="_blank" href="/baike/1552575.html">CPU和GPU采用的馮·諾依曼架構(gòu)存在局限性，數(shù)據(jù)遷移帶來(lái)的挑戰(zhàn)導(dǎo)致性能下降。為了最大限度提升性能，就必須在函數(shù)的轉(zhuǎn)換中準(zhǔn)備好數(shù)據(jù)，而僵化的存儲(chǔ)器層級(jí)導(dǎo)致效率低下。第三，伴隨以上問(wèn)題，不可避免會(huì)浪費(fèi)時(shí)序周期、降低工作效率、增大功耗。

賽靈思數(shù)據(jù)中心事業(yè)部高性能計(jì)算（HPC）產(chǎn)品經(jīng)理? Nathan Chang

他強(qiáng)調(diào)，整個(gè)工作負(fù)載遷移和演變的方向，主要是受到存儲(chǔ)器的帶寬限制。如果沒(méi)有辦法解決存儲(chǔ)器帶寬的瓶頸，就沒(méi)辦法利用數(shù)據(jù)中心的規(guī)模。

正因如此，Alveo U55C專(zhuān)為大數(shù)據(jù)和高性能計(jì)算工作負(fù)載構(gòu)建，它能夠?qū)崿F(xiàn)更高的數(shù)據(jù)流水線并行性、帶來(lái)優(yōu)化的存儲(chǔ)器管理、優(yōu)化整個(gè)流水線的數(shù)據(jù)遷移，以及實(shí)現(xiàn)出色的單位功耗性能。

賽靈思執(zhí)行副總裁兼數(shù)據(jù)中心事業(yè)部總經(jīng)理Salil Raje表示：“我們引入了基于標(biāo)準(zhǔn)的方法，可以支持客戶利用現(xiàn)有的基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)創(chuàng)建 Alveo HPC 集群。借助這一方法，我們正將這些主要優(yōu)勢(shì)大規(guī)模應(yīng)用于任意數(shù)據(jù)中心。這是實(shí)現(xiàn) Alveo 和自適應(yīng)計(jì)算在數(shù)據(jù)中心更廣泛應(yīng)用的一次重大飛躍?！?/p>

專(zhuān)為 HPC 和大數(shù)據(jù)應(yīng)用打造

Alveo U55C卡采用單插槽、全高半長(zhǎng)（FHHL）外形尺寸，最大功耗低至150W。與前一代雙插槽Alveo U280卡相比，Alveo U55C提供了更高的計(jì)算密度，還將HBM2容量翻倍至16GB。U55C以更小的外形尺寸提供了更高的算力，有助于創(chuàng)建基于 Alveo 加速器的密集集群。它專(zhuān)為需要性能擴(kuò)展的高密度流式數(shù)據(jù)、高 I/O 數(shù)學(xué)和大型計(jì)算問(wèn)題而開(kāi)發(fā)，例如大數(shù)據(jù)分析和 AI 應(yīng)用。

“Alveo U55C非常重要的特性包括：第一就是采用RoCE v2、DCBx、MPI，在現(xiàn)有網(wǎng)絡(luò)和基礎(chǔ)架構(gòu)上，為數(shù)據(jù)中心提供了尖端的計(jì)算集群；第二，應(yīng)用開(kāi)發(fā)人員可以利用Vitis平臺(tái)上已有的一些API、庫(kù)以及MPI，來(lái)擴(kuò)展工作負(fù)載”， Nathan Chang總結(jié)。

?
具體而言，利用現(xiàn)有的開(kāi)放標(biāo)準(zhǔn)和框架，不論所使用的服務(wù)器平臺(tái)和基礎(chǔ)架構(gòu)如何，都可以將Alveo擴(kuò)展到數(shù)百?gòu)埧?，利用RoCE v2和數(shù)據(jù)中心DCBx的橋接，再加上200Gbps的帶寬，在網(wǎng)絡(luò)性能、延遲方面可以跟 InfiniBand抗衡。

MPI集成則可以幫助HPC開(kāi)發(fā)者通過(guò)Vitis擴(kuò)展Alveo數(shù)據(jù)流水線。通過(guò)Vitis，可以抽象出開(kāi)發(fā)機(jī)器級(jí)代碼的需要，比如RTL或Verilog，另外也能夠讓硬件設(shè)計(jì)嵌入到整個(gè)應(yīng)用的開(kāi)發(fā)過(guò)程中?，F(xiàn)在，Vitis已經(jīng)可以支持更多的高層次編程語(yǔ)言，如C、C++、Python語(yǔ)言等，都開(kāi)始支持現(xiàn)在主流的AI框架，開(kāi)發(fā)人員還可以通過(guò)API和SDK來(lái)加速關(guān)鍵工作負(fù)載。
?

HPC三大用例

用于全球最大射電天文望遠(yuǎn)鏡天線陣列信號(hào)處理

CSIRO 是澳大利亞的國(guó)立研究機(jī)構(gòu)，擁有全球最大的射電天文望遠(yuǎn)鏡天線陣列。在CSIRO用于其平方公里陣列（ Square Kilometer Array ）射電望遠(yuǎn)鏡的信號(hào)處理中，使用了Alveo U55C 卡。將 Alveo 卡部署為配備 HBM 的網(wǎng)絡(luò)附加加速器，能夠在整個(gè) HPC 信號(hào)處理集群中實(shí)現(xiàn)大規(guī)模吞吐量。

Nathan Chang解釋說(shuō)，在這個(gè)世界上最大的射電天文望遠(yuǎn)鏡天線陣列中，每平方公里有13.1萬(wàn)支天線，規(guī)模是21個(gè)節(jié)點(diǎn)，用了420張U55C卡，每個(gè)節(jié)點(diǎn)是20張卡，在集群里每秒通過(guò)的數(shù)據(jù)是15Tb?？梢钥吹?，要處理和通過(guò)的數(shù)據(jù)量非常龐大，并且還需要處理一些非常復(fù)雜的工作負(fù)載，比如光線生成模擬器，以及一些成像相關(guān)的功能。

據(jù)了解，該實(shí)驗(yàn)室也曾考慮過(guò)用GPU卡做集群搭建，但是需要雙插槽GPU卡，要占用兩個(gè)PCIe接口，同時(shí)也需要旁邊的插槽來(lái)處理相關(guān)帶寬需求，才能為板卡提供支持，這就需要三個(gè)PCIe插槽。相比起來(lái)，U55C卡有板載聯(lián)網(wǎng)功能，使用的是一個(gè)插槽。

此外，由于該應(yīng)用案例中，電源來(lái)自于可再生能源，對(duì)高性能、低功耗的要求很高。綜上，賽靈思Alveo U55C卡成為了理想選擇。基于 Alveo 加速器的集群使 CSIRO 能夠處理海量計(jì)算任務(wù)，從 13.1 萬(wàn)根天線中實(shí)時(shí)聚合、過(guò)濾、準(zhǔn)備和處理數(shù)據(jù)。420 張 Alveo U55C 卡通過(guò)支持P4語(yǔ)言的100Gbs交換機(jī)實(shí)現(xiàn)聯(lián)網(wǎng)，在整個(gè)信號(hào)處理集群中提供了 460GB/s 的 HBM2帶寬。Alveo U55C 集群的處理性能可達(dá)15Tb/s的總吞吐量，功耗更低且更具成本效益。據(jù)介紹，CSIRO 現(xiàn)正完成一項(xiàng) Alveo 參考設(shè)計(jì)，以助力其他射電天文學(xué)或相鄰產(chǎn)業(yè)獲得同樣的成功。

超并行數(shù)據(jù)流水線用于碰撞仿真軟件

第二個(gè)應(yīng)用案例是對(duì)Ansys碰撞仿真軟件LS-DYNA進(jìn)行性能加速。該碰撞仿真軟件幾乎用于全球所有汽車(chē)公司，因?yàn)榘踩院徒Y(jié)構(gòu)系統(tǒng)的設(shè)計(jì)往往取決于模型性能，因其能以計(jì)算機(jī)輔助設(shè)計(jì)有限元方法（FEM）仿真來(lái)降低物理碰撞測(cè)試的成本。

Ansys LS-DYNA FEM 求解器是驅(qū)動(dòng)具備數(shù)億個(gè)自由度仿真的主要算法，而這些龐大的算法可以細(xì)分為更基本的求解器，如 PCG、稀疏矩陣、ICCG。

據(jù)Nathan Chang介紹，賽靈思在與LS-DYNA團(tuán)隊(duì)的合作過(guò)程中發(fā)現(xiàn)，他們?yōu)榱酥芜@個(gè)仿真求解器，占用了90%的運(yùn)行時(shí)。由于稀疏矩陣計(jì)算需要大量數(shù)據(jù)訪問(wèn)，而現(xiàn)有CPU架構(gòu)并不是非常理想，因?yàn)镃PU緩存量很小，且CPU在訪問(wèn)系統(tǒng)內(nèi)存數(shù)據(jù)的時(shí)候，會(huì)浪費(fèi)一些時(shí)間周期，造成CPU核心利用度不高，導(dǎo)致性能下降。

“這個(gè)設(shè)計(jì)過(guò)程我們把它叫做‘?dāng)?shù)據(jù)流水線’，對(duì)于Alveo開(kāi)發(fā)人員，在設(shè)計(jì)這個(gè)數(shù)據(jù)流水線的時(shí)候，每一個(gè)微小數(shù)據(jù)的調(diào)試都是非常重要的——這保證了我們從一個(gè)函數(shù)到另一個(gè)函數(shù)，在數(shù)據(jù)流水線里轉(zhuǎn)移數(shù)據(jù)的時(shí)候，能夠保持好動(dòng)能。同時(shí)數(shù)據(jù)的轉(zhuǎn)移也不會(huì)因?yàn)樽x和寫(xiě)的動(dòng)作而受到限制，因?yàn)槲覀兪褂玫氖强ㄉ系拇鎯?chǔ)器”， Nathan Chang解釋說(shuō)，“我們?cè)谶@些數(shù)據(jù)流水線中設(shè)計(jì)了一些微線路，讓數(shù)據(jù)從一個(gè)函數(shù)到另一個(gè)函數(shù)做轉(zhuǎn)移，不用再返回原來(lái)的函數(shù)上，所以我們稱之為定制化數(shù)據(jù)遷移?！?/p>

與x86 CPU 相比，利用超并行數(shù)據(jù)流水線在大量 Alveo卡上進(jìn)行性能擴(kuò)展，LS-DYNA 能夠?qū)崿F(xiàn)超過(guò)5倍的性能加速。這能在一個(gè) Alveo 流水線中提高單位時(shí)鐘周期的工作效率，令 LS-DYNA 客戶受益于突破性的仿真時(shí)間。

為大數(shù)據(jù)圖分析提供加速

TigerGraph是一家圖分析平臺(tái)提供商，使用了多張 Alveo U55C 卡為兩種最高效算法進(jìn)行集群與加速，以驅(qū)動(dòng)基于圖的推薦和集群引擎。

Nathan Chang談到，對(duì)于數(shù)據(jù)科學(xué)家而言，圖數(shù)據(jù)庫(kù)可謂一種顛覆性平臺(tái)。因?yàn)閿?shù)據(jù)孤島越來(lái)越多，圖數(shù)據(jù)庫(kù)能夠?qū)?shù)據(jù)從孤島里提取出來(lái)，然后讓數(shù)據(jù)科學(xué)家專(zhuān)注于數(shù)據(jù)之間的關(guān)系，而不是看單張圖。換句話說(shuō)，讓關(guān)系成為數(shù)據(jù)庫(kù)第一位重要性的成員。根據(jù)Gartner預(yù)測(cè)，到2025年，大約有80%的數(shù)據(jù)庫(kù)會(huì)是圖數(shù)據(jù)庫(kù)。

圖從信息孤島中采集數(shù)據(jù)并重點(diǎn)關(guān)注數(shù)據(jù)間的關(guān)系，圖領(lǐng)域的下一個(gè)前沿是實(shí)時(shí)查找答案，因?yàn)闆](méi)有人愿意為了推薦結(jié)果而多做等待。Alveo U55C 將推薦引擎的查詢和預(yù)測(cè)時(shí)間從數(shù)分鐘縮短至數(shù)毫秒。與基于 CPU 的集群相比，使用多張 U55C 卡擴(kuò)展分析所提供的出色計(jì)算能力和存儲(chǔ)器帶寬，可將圖查詢速度提升高達(dá) 45 倍。質(zhì)量評(píng)分也提升高達(dá) 35%，從而顯著提升置信度，將誤報(bào)幾率降至低個(gè)位數(shù)。

高性能計(jì)算領(lǐng)域FPGA加速器卡優(yōu)勢(shì)何在？

Nathan Chang表示，就目前在規(guī)劃中的HPC架構(gòu)而言，很多都非常專(zhuān)注于某一類(lèi)型的工作負(fù)載，比如在設(shè)計(jì)、構(gòu)建、架構(gòu)方面，都是專(zhuān)門(mén)針對(duì)比較專(zhuān)用的工作負(fù)載。因此不會(huì)像過(guò)去一樣，造非常大的機(jī)架，來(lái)處理非常高的數(shù)據(jù)量，現(xiàn)在更多是搭建專(zhuān)屬的用例。當(dāng)然，高性能計(jì)算總是需要CPU、GPU的，但是一些非常需要靈活性的專(zhuān)用設(shè)備對(duì)FPGA加速器卡有很大需求，并且FPGA具有低功耗優(yōu)勢(shì)。

根據(jù)Nathan Chang分享的一些專(zhuān)門(mén)研究HPC的分析師觀點(diǎn)，認(rèn)為加速器業(yè)務(wù)增長(zhǎng)正在勢(shì)頭正猛的關(guān)口，不管是業(yè)務(wù)增長(zhǎng)的速度，還是收入的占比，都超過(guò)了CPU。

“我們認(rèn)為，未來(lái)會(huì)有越來(lái)越多的算力部署在專(zhuān)用加速器領(lǐng)域，而不是通用CPU上。這對(duì)于整個(gè)HPC服務(wù)器集群的降功耗目標(biāo)都是有利的，因?yàn)閷?zhuān)用加速器的功耗更低”， Nathan Chang補(bǔ)充，“高性能計(jì)算領(lǐng)域?qū)τ诟佣鄻踊壹?xì)分的計(jì)算平臺(tái)需求，未來(lái)將不斷增長(zhǎng)。”

根據(jù)官方消息，Alveo U55C卡目前已可通過(guò)賽靈思官方渠道和授權(quán)分銷(xiāo)商進(jìn)行購(gòu)買(mǎi)，該產(chǎn)品也可通過(guò)基于公有云的FaaS（FPGA-as-a-Service，F(xiàn)PGA 即服務(wù)）供應(yīng)商進(jìn)行簡(jiǎn)便評(píng)估，也可以通過(guò)選定的托管數(shù)據(jù)中心進(jìn)行專(zhuān)屬預(yù)覽。集群解決方案現(xiàn)已提供專(zhuān)屬預(yù)覽，預(yù)計(jì)將于明年第二季度全面問(wèn)世。?

賽靈思推出其史上最強(qiáng)大FPGA加速器卡，硬剛CPU、GPU

專(zhuān)為 HPC 和大數(shù)據(jù)應(yīng)用打造

HPC三大用例

高性能計(jì)算領(lǐng)域FPGA加速器卡優(yōu)勢(shì)何在？

相關(guān)推薦

賽靈思推出其史上最強(qiáng)大FPGA加速器卡，硬剛CPU、GPU

專(zhuān)為 HPC 和大數(shù)據(jù)應(yīng)用打造

HPC三大用例

高性能計(jì)算領(lǐng)域FPGA加速器卡優(yōu)勢(shì)何在？

相關(guān)推薦

賽靈思推出其史上最強(qiáng)大FPGA加速器卡，硬剛CPU、GPU

高性能計(jì)算領(lǐng)域FPGA加速器卡優(yōu)勢(shì)何在？