近期,MLCommons公布了針對AI模型訓(xùn)練的行業(yè)標(biāo)準(zhǔn)MLPerf訓(xùn)練v3.1基準(zhǔn)測試結(jié)果。其中,內(nèi)置英特爾?高級矩陣擴展(英特爾?AMX)加速引擎的第四代英特爾?至強?可擴展處理器作為唯一提交MLPerf測試結(jié)果的CPU,在測試中展現(xiàn)出強大的性能,進一步印證了英特爾對加速在云、網(wǎng)、邊、端的工作負載中大規(guī)模部署AI的承諾。
本次,英特爾提交了ResNet50、RetinaNet、BERT和DLRM dcnv2的測試結(jié)果。值得注意的是,在DLRM dcnv2這一個新提交的測試模型中,第四代英特爾至強可擴展處理器僅使用四個節(jié)點就在227分鐘內(nèi)完成了訓(xùn)練。而對于ResNet50、RetinaNet和BERT,第四代英特爾至強可擴展處理器亦展示出了強大的開箱即用的性能。
在通用AI工作負載中第四代至強可擴展處理器具備出色性能
在分別于今年6月、9月和11月進行的三次測試中,英特爾提交了基于第四代英特爾至強可擴展處理器的多個推理基準(zhǔn)測試,結(jié)果顯示,包括視覺、語言處理、語音和音頻翻譯模型,以及更大的DLRM v2深度學(xué)習(xí)推薦模型及60億參數(shù)大語言模型及計算機視覺與自然語言處理模型ChatGPT-J在內(nèi),第四代英特爾至強處理器對于通用AI工作負載擁有出色的性能。英特爾也與OEM廠商合作提交了測試結(jié)果,進一步展示了其AI性能的可擴展性,以及基于英特爾至強處理器的通用服務(wù)器的可獲取性,充分滿足客戶服務(wù)水平協(xié)議 (SLA)。
第四代英特爾至強可擴展處理器的強大性能為企業(yè)提供了“開箱即用”的功能,可以在通用系統(tǒng)上部署AI以用于數(shù)據(jù)預(yù)處理、模型訓(xùn)練和部署,從而獲得兼具AI性能、效率、準(zhǔn)確性和可擴展性的最優(yōu)組合,避免了引入專用AI系統(tǒng)的高昂成本和復(fù)雜性,其范圍覆蓋了多個框架、端到端數(shù)據(jù)科學(xué)工具,以及廣泛的智能解決方案生態(tài)系統(tǒng)。許多企業(yè)可以在其現(xiàn)有的企業(yè)級IT基礎(chǔ)設(shè)施上使用通用CPU進行高性價比、可持續(xù)地訓(xùn)練中小型深度學(xué)習(xí)模型,尤其適用于訓(xùn)練對象是間歇性工作負載的用例。
截止目前,第四代至強可擴展處理器已出貨一百萬片,并憑借其強勁的AI性能被本地生態(tài)伙伴廣泛應(yīng)用于眾多領(lǐng)域。在于百度智能云9月發(fā)布的新一代云服務(wù)器BCC實例中,第四代至強可擴展處理器以AMX加速器擴展AI算力,從而使百度智能云用戶在任何實例上輕松獲取原生的強大AI能力。得益于英特爾AMX指令集針對矩陣運算的強大加速能力,騰訊BERT模型BF16吞吐量獲得大幅提升,從而有效地優(yōu)化了其AI用戶的終端體驗。通過AMX INT8及BF16的不同精度數(shù)據(jù)處理、AVX-512的深入調(diào)優(yōu),以及英特爾軟件的加持,阿里云地址標(biāo)準(zhǔn)化業(yè)務(wù)和淘寶搜索的定制化推薦業(yè)務(wù)實現(xiàn)了大幅性能提升。
與此同時,第四代英特爾至強可擴展處理器亦助力亞信、用友、金蝶和東軟等獨立軟件服務(wù)商實現(xiàn)在OCR等領(lǐng)域的多項業(yè)務(wù)升級,助力其成功應(yīng)對來自不同應(yīng)用場景的多樣化AI工作負載需求。
致力于推動AI無處不在,英特爾不僅打造包括第四代英特爾至強可擴展處理器在內(nèi)的硬件產(chǎn)品,亦通過開源的軟件堆棧和開放的生態(tài)為生態(tài)伙伴提供全方位助力,旨在滿足千行百業(yè)對多重性能、能效和易用性的動態(tài)要求,進一步推動AI應(yīng)用落地。