中國信通院發(fā)布的《2024全球數(shù)字經(jīng)濟(jì)白皮書》顯示,2023年至2024年第一季度,中國共涌現(xiàn)出71家AI獨(dú)角獸企業(yè),其中大模型數(shù)量占比高達(dá)36%,即478個(gè)。隨著基礎(chǔ)通用大模型的能力上限被不斷刷新,算力成本、功耗、技術(shù)門檻、行業(yè)落地等問題與挑戰(zhàn)也越來越突出,如何從底層算力、平臺(tái)、應(yīng)用場景等維度尋求破局,成為大模型落地的關(guān)鍵。
對(duì)于企業(yè)來說,如何更好地迎接以大模型為基礎(chǔ)的AI時(shí)代?這其實(shí)需要在性價(jià)比、創(chuàng)新性以及安全等方面做好準(zhǔn)備,也意味著需要打造以AI負(fù)載為中心的基礎(chǔ)架構(gòu)新范式。日前,在2024火山引擎FORCE原動(dòng)力大會(huì)期間,英特爾與火山引擎聯(lián)合發(fā)布的第四代云服務(wù)器實(shí)例引起了廣泛關(guān)注,該實(shí)例不僅降低了大模型的應(yīng)用門檻,更通過云與AI深度融合的服務(wù)能力,推動(dòng)了AI技術(shù)邊界的不斷拓展。
生成式AI推動(dòng)下,云計(jì)算+AI的交融創(chuàng)新
大模型應(yīng)用首先離不開強(qiáng)大的算力支持,尤其是隨著需求增長,高性能異構(gòu)算力的重要性越發(fā)突顯,同時(shí),綠色節(jié)能方案變得至關(guān)重要,以確保技術(shù)發(fā)展的可持續(xù)性。
過去十幾年,移動(dòng)互聯(lián)網(wǎng)迅猛發(fā)展,英特爾作為基礎(chǔ)技術(shù)提供者,支持了字節(jié)跳動(dòng)等新一代互聯(lián)網(wǎng)企業(yè)的崛起。如今,隨著ChatGPT等技術(shù)的推動(dòng),生成式AI技術(shù)迎來了快速發(fā)展,一個(gè)波瀾壯闊的新紀(jì)元即將開啟。
“在生成式AI主導(dǎo)的新時(shí)代,融合AI技術(shù)與云計(jì)算成為了必然趨勢。云計(jì)算作為一個(gè)強(qiáng)大的支撐平臺(tái),將持續(xù)助力大模型效果、性能的不斷提升。而反過來,大模型技術(shù)的每一次創(chuàng)新,又會(huì)成為推動(dòng)云計(jì)算技術(shù)發(fā)展與創(chuàng)新的強(qiáng)大動(dòng)力”,英特爾市場營銷集團(tuán)副總裁、中國區(qū)云與行業(yè)解決方案和數(shù)據(jù)中心銷售部總經(jīng)理梁雅莉談到。
移動(dòng)互聯(lián)網(wǎng)時(shí)代,應(yīng)用的核心在于連接——無論是人與人之間,還是人與世界的聯(lián)系,其本質(zhì)都是提升協(xié)作效率。而大模型技術(shù)催生的智能體通過協(xié)作共進(jìn),解鎖了更高級(jí)的能力,為實(shí)現(xiàn)更高級(jí)的通用人工智能打下了堅(jiān)實(shí)的基礎(chǔ),未來將是一個(gè)虛實(shí)交融、智能互連的新世界。
梁雅莉表示,在這一過程中,AI和云計(jì)算將會(huì)是不斷更迭、不斷創(chuàng)新的交融。移動(dòng)互聯(lián)網(wǎng)時(shí)代,行業(yè)熟知的云計(jì)算服務(wù)以IaaS、PaaS為代表,分別為云原生應(yīng)用的構(gòu)建提供基礎(chǔ)計(jì)算資源和軟件平臺(tái)級(jí)服務(wù)。而邁入AI時(shí)代,面對(duì)重新定義的大模型應(yīng)用架構(gòu)和開發(fā)運(yùn)營模式,云計(jì)算的邊緣在不斷擴(kuò)展,MaaS(模型即服務(wù))會(huì)成為互聯(lián)網(wǎng)企業(yè)核心的AI技術(shù)輸出能力,也是主要變現(xiàn)的能力。
面對(duì)新的發(fā)展趨勢,英特爾與字節(jié)跳動(dòng)旗下的云服務(wù)平臺(tái)——火山引擎密切合作,從算力、平臺(tái)、應(yīng)用場景等多個(gè)維度探索創(chuàng)新的解決方案。
對(duì)于火山引擎來說,PaaS層面衍生出了扣子Coze這樣基于智能體、工作流方式的大模型應(yīng)用孵化平臺(tái);IaaS 層面聚焦于滿足訓(xùn)練、開發(fā)驗(yàn)證等多樣算力的需求。對(duì)于輕量級(jí)大模型應(yīng)用開發(fā)場景,火山引擎為開發(fā)者提供了g4il云實(shí)例,相較于GPU實(shí)例,資源門檻直降50%,背后正是英特爾至強(qiáng)6性能核的加持。
并且在智能體領(lǐng)域,英特爾與“扣子”合作推出了增強(qiáng)版的扣子智能體開發(fā)平臺(tái)——Coze-AIPC。通過引入基于英特爾PC端平臺(tái)的扣子App,并通過創(chuàng)新的“端插件”機(jī)制,使PC操控、本地知識(shí)庫等AIPC的端側(cè)能力可以被無縫嵌入扣子大模型與工作流,從而為開發(fā)者提供便捷、低時(shí)延和具備成本效益的端云協(xié)同智能體新體驗(yàn)。
值得強(qiáng)調(diào)的是,至強(qiáng)6性能核主要用于通用計(jì)算、數(shù)據(jù)Web服務(wù)、科學(xué)計(jì)算、AI等場景。性能相比上一代平均提高超過2倍,尤其是科學(xué)計(jì)算,有超過2.5倍的提高,對(duì)AI大語言模型甚至有超過3倍的性能提高。與此同時(shí),至強(qiáng)6性能核還兼顧了能效,是上代的1.5倍甚至更高。通過至強(qiáng)6性能核,英特爾滿足了AI數(shù)據(jù)中心對(duì)高性能、低成本、穩(wěn)定性、安全性和綠色節(jié)能的需求。
火山引擎基于此打造的新一代云實(shí)例,不僅具備高效彈性能力,還能充分保障數(shù)據(jù)安全,并在AI推理等智算任務(wù)上實(shí)現(xiàn)性能的大幅提升。
豆包大模型高速增長背后——高性能、智能算力底座的重要性
在競爭激烈的大模型市場,豆包大模型脫穎而出,日均調(diào)用量從5月份的1,200億tokens增長至12月的4萬億tokens,7個(gè)月內(nèi)增長超過33倍,成為國內(nèi)AI應(yīng)用中的佼佼者。并且,豆包大模型仍正不斷優(yōu)化和擴(kuò)展,包括新成員豆包視覺理解模型的加入,都標(biāo)志著大模型向多模態(tài)應(yīng)用邁進(jìn)的關(guān)鍵一步。
豆包大模型的高速增長,是市場快速發(fā)展的一個(gè)縮影,體現(xiàn)了算力在AI技術(shù)發(fā)展中的核心作用——高性能的異構(gòu)算力直接關(guān)系到大模型的性能和效率,以及迭代創(chuàng)新的速度。
火山引擎彈性計(jì)算產(chǎn)品負(fù)責(zé)人王睿,分享了火山引擎基于英特爾技術(shù)打造的彈性算力底座的產(chǎn)品化實(shí)踐。他強(qiáng)調(diào),隨著生成式AI和大模型訓(xùn)練的興起,全球?qū)λ懔Φ男枨蠹ぴ觯癸@了智算平臺(tái)基礎(chǔ)設(shè)施的重要性?;鹕揭嫱ㄟ^海量資源共池,滿足企業(yè)在AI技術(shù)和智算化轉(zhuǎn)型中的算力需求,同時(shí)通過共池釋放成本紅利給客戶,實(shí)現(xiàn)了百萬規(guī)模的資源彈性,天級(jí)別可實(shí)現(xiàn)50萬核的彈性能力,峰值可以達(dá)到100萬核,分鐘級(jí)別可達(dá)10萬核。
據(jù)介紹,全新發(fā)布的第四代通用計(jì)算型實(shí)例g4il,搭載了最新的英特爾至強(qiáng)6性能核處理器和火山引擎自研的DPU,實(shí)現(xiàn)了計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)性能的全面升級(jí)。相比上一代產(chǎn)品,g4il在視頻轉(zhuǎn)碼、Web應(yīng)用、和數(shù)據(jù)庫應(yīng)用方面分別實(shí)現(xiàn)了17%、19%和20%的性能提升。此外,g4il進(jìn)一步豐富了實(shí)例的功能,比如新增了大包傳輸能力(Jumbo Frame)、機(jī)密計(jì)算能力(TDX)、以及支撐最新云盤吞吐類型SSD。
王睿強(qiáng)調(diào),英特爾至強(qiáng)6性能核處理器上新增了高速內(nèi)存MRDIMM,同時(shí)新增了支持AMX FP16指令集,更大的內(nèi)存帶寬疊加更強(qiáng)的矩陣運(yùn)算能力,為AI推理加速提供了更優(yōu)的底層基礎(chǔ)環(huán)境?;鹕揭婊?a class="article-link" target="_blank" href="/tag/%E5%BC%80%E6%BA%90/">開源模型Llama2 7B上實(shí)現(xiàn)了大幅性能提升。GNR加上MRDIMM,實(shí)測的吞吐性能相比英特爾EMR CPU加上通用型DDR5內(nèi)存,最高提升可以達(dá)到80%。同時(shí)相比單卡的A10和L20 GPU測試結(jié)果也得到了印證,有很大的優(yōu)勢。
除了AI推理方面的極致性能,用戶也越來越關(guān)注整體安全性。針對(duì)云上的AI場景,火山引擎打造了端到端安全解決方案,基于CPU和GPU硬件機(jī)密計(jì)算能力,火山引擎在固件、內(nèi)核、虛擬化以及操作系統(tǒng)等方面做了深度調(diào)優(yōu),在云服務(wù)器產(chǎn)品上,高效使能了機(jī)密計(jì)算能力,將內(nèi)存加密等特性造成的性能損失降到最低。
此外,火山引擎還推出了業(yè)界首創(chuàng)的彈性預(yù)約制售賣方式,支持免費(fèi)資源提前預(yù)約,自動(dòng)交付,節(jié)省成本超過33%。百萬規(guī)模的彈性資源池為各種極致彈性應(yīng)用場景提供了澎湃算力。
“在新一代AI基礎(chǔ)架構(gòu)中,我們判斷大模型對(duì)算力規(guī)模、算力性能,集群內(nèi)通信效率、模型訓(xùn)練和并行模式、存儲(chǔ)性能、隱私安全等都會(huì)有更高要求,我們希望和英特爾持續(xù)攜手,更好應(yīng)對(duì)智算時(shí)代的新挑戰(zhàn)”,王睿表示。
走近至強(qiáng)6——生成式AI基礎(chǔ)設(shè)施的“超級(jí)大腦”
為了滿足數(shù)據(jù)中心對(duì)高性能、低成本、穩(wěn)定性、安全性以及綠色節(jié)能的需求,英特爾推出了新一代至強(qiáng)6處理器。這款處理器結(jié)合了能效核和性能核的雙微架構(gòu)設(shè)計(jì),實(shí)現(xiàn)了性能的大幅提升和能效比的重大突破,契合了AI數(shù)據(jù)中心對(duì)高性能、低成本、穩(wěn)定性、安全性以及綠色節(jié)能的需求。特別是在AI推理方面的表現(xiàn)尤為突出,它就像是一個(gè)超級(jí)“大腦”,提供強(qiáng)大的計(jì)算能力和高效的數(shù)據(jù)處理速度,使得復(fù)雜的AI任務(wù)能夠快速且高效執(zhí)行。
QAT加速器實(shí)現(xiàn)云存儲(chǔ)性能提升
其中,內(nèi)嵌式加速器QAT、IAA、DSA、DLB等,實(shí)現(xiàn)了在不同場景下卸載CPU算力,助力了整機(jī)算力的綜合提升。目前,英特爾和字節(jié)跳動(dòng)在QAT方面的合作已經(jīng)取得了顯著成效。
事實(shí)上,QAT并不是一項(xiàng)新技術(shù),而是英特爾至強(qiáng)6處理器第一次把它用于CPU中。據(jù)英特爾技術(shù)專家解釋說,QAT主要帶來三方面好處:
- 第一,性能。Gzip的壓縮每個(gè)核大概每秒只能達(dá)到100MB的速度,相對(duì)QAT來說,是5GB/s的速度,這是非常大的提升。
- 第二,可擴(kuò)展性。CPU上的QAT最多可以支持四個(gè),一方面可以針對(duì)實(shí)際需求進(jìn)行定制化,另一方面也可以選擇所需要的CPU型號(hào)。
- 第三,QAT在帶來高性能的同時(shí),功耗也非常低,在性能功耗比方面有顯著提升。在很多應(yīng)用場景中,例如存儲(chǔ),用戶需要通過QAT節(jié)省CPU核,提升TCO。
QAT主要提供三種能力:第一,非對(duì)稱加解密,用于Web服務(wù)、負(fù)載均衡器、內(nèi)容分發(fā)網(wǎng)絡(luò)中的TLS握手過程;第二,壓縮和解壓縮:支持多種格式,如LZ4、Gzip,以及最新版本中的ZSDT;第三,對(duì)稱加解密:利用CPU的AVX-512指令集,減少CPU消耗。
用QAT來測TLS卸載的每秒連接數(shù),通過8核16線程加上4個(gè)QAT,可以提供的計(jì)算能力相當(dāng)于是超過50個(gè)CPU核的計(jì)算能力,可以達(dá)到節(jié)省84%的核的效果。壓縮性能方面,第四代至強(qiáng)處理器的QAT相比PCIe形式的QAT,性能提升2倍。
在英特爾和火山引擎云存儲(chǔ)團(tuán)隊(duì)共同開發(fā)的底層的存儲(chǔ)庫veSAL中,成功引入了QAT。壓縮時(shí),一個(gè)QAT提供3.8GB/s的帶寬,大概可以節(jié)省6-8個(gè)核心的計(jì)算能力;解壓縮時(shí),大概是2.5個(gè)核的計(jì)算能力(這是基于公開數(shù)據(jù)集得出的結(jié)論)。
至強(qiáng)6機(jī)密計(jì)算的虛擬化實(shí)踐
伴隨機(jī)器學(xué)習(xí)、大模型應(yīng)用等高算力場景越來越多,用戶數(shù)據(jù)需要在通用處理器和異構(gòu)加速器之間進(jìn)行協(xié)同計(jì)算。英特爾TDX Connect技術(shù),能夠使用戶數(shù)據(jù)在異構(gòu)加速場景中得到機(jī)密性保護(hù),既保障了數(shù)據(jù)安全,又滿足了異構(gòu)加速對(duì)高算力的需求。
TDX本身基于虛擬化技術(shù),針對(duì)機(jī)密計(jì)算需求,英特爾做了芯片微架構(gòu)層面的擴(kuò)展,引入了新的機(jī)密虛擬化模式。英特爾技術(shù)專家表示,今天在云場景中,大部分業(yè)務(wù)都是運(yùn)行在虛擬化環(huán)境里面的,所以用戶的應(yīng)用只要能跑在虛擬化環(huán)境中,就可以不做任何應(yīng)用層面的代碼修改,直接升級(jí)遷移為機(jī)密計(jì)算的解決方案?;谶@種方式,可以大大降低用戶存量應(yīng)用升級(jí)為機(jī)密計(jì)算的成本。
TDX為數(shù)據(jù)安全提供了多層次的保護(hù)能力,當(dāng)用戶虛擬化實(shí)例數(shù)據(jù)寫入內(nèi)存的過程中,利用內(nèi)存控制器上基于硬件的加解密引擎進(jìn)行實(shí)時(shí)加密,可以確保用戶數(shù)據(jù)在內(nèi)存中始終是密態(tài)隔離方式,即便是在云計(jì)算這種復(fù)雜環(huán)境中,哪怕系統(tǒng)中有不可靠、不可信的軟件,甚至是黑客攻擊,只要不進(jìn)入虛擬機(jī)內(nèi)部,用戶數(shù)據(jù)始終是安全的。
如今,互聯(lián)網(wǎng)應(yīng)用迭代速度之快,部署模式之復(fù)雜多樣,早已超出了傳統(tǒng)應(yīng)用的范疇。為了確保用戶應(yīng)用從傳統(tǒng)計(jì)算模式向機(jī)密計(jì)算遷移過程中在基礎(chǔ)軟件上實(shí)現(xiàn)零投入,英特爾在TDX或機(jī)密虛擬化軟件生態(tài)秉承全面開源策略,包括操作系統(tǒng)、虛擬機(jī)控制器以及云原生軟件棧和遠(yuǎn)程證明軟件棧,統(tǒng)統(tǒng)提供了開源的生態(tài)支持?;陂_源生態(tài),用戶應(yīng)用可以彈性支持IaaS、PaaS、FaaS等多種業(yè)務(wù)模型。
寫在最后
底層算力是推動(dòng)AI釋放巨大潛能的關(guān)鍵要素之一,一個(gè)功能全面、性能卓越、可靠且具有高可擴(kuò)展性的計(jì)算平臺(tái)是當(dāng)前所需。
得益于至強(qiáng)6性能核處理器的領(lǐng)先性能,英特爾助力火山引擎第四代通用計(jì)算型實(shí)例g4il顯著提高了計(jì)算效率和系統(tǒng)穩(wěn)定性?;谟⑻貭栔翉?qiáng)6火山引擎云實(shí)例進(jìn)行大模型開發(fā)應(yīng)用,一定程度上實(shí)現(xiàn)了資源低門檻和軟件高起點(diǎn)。它讓大模型推理性能升級(jí),大模型應(yīng)用開發(fā)前期可多聚焦于應(yīng)用效果優(yōu)化。軟件方面,英特爾攜手火山引擎,提供預(yù)驗(yàn)證優(yōu)化模塊與組件、集成鏡像達(dá)成應(yīng)用一鍵部署,確?;陂_源方案開發(fā)也可以有更好的效果和性能。
此外,英特爾至強(qiáng)處理器也為火山引擎帶來了更高的數(shù)據(jù)存儲(chǔ)效率和可靠性。正如前文所說,英特爾的QAT、TDX等技術(shù),對(duì)云存儲(chǔ)效率、云上AI的端到端機(jī)密計(jì)算都帶來了顯著的性能提升。