日前,英特爾舉辦了面向客戶和合作伙伴的英特爾on產(chǎn)業(yè)創(chuàng)新大會(Intel Vision)。這次大會,英特爾面向生成式AI火力全開,CPU、AI加速器、AI互連網(wǎng)絡(luò)、AI軟件等都有重要升級。
大會期間,中國區(qū)幾大業(yè)務(wù)線相關(guān)負(fù)責(zé)人(數(shù)據(jù)中心、行業(yè)云、網(wǎng)絡(luò)與邊緣、軟件、大數(shù)據(jù)等)集體亮相,接受了<與非網(wǎng)>等媒體采訪。從這次發(fā)言人的陣容,也可管窺英特爾在生成式AI的全棧戰(zhàn)略,畢竟未來不是單點(diǎn)技術(shù)的比拼,更是全局戰(zhàn)略和技術(shù)平臺的較量。
企業(yè)生成式AI——開放平臺,互聯(lián)互通
關(guān)于生成式AI在企業(yè)中的應(yīng)用,英特爾市場營銷集團(tuán)副總裁、中國區(qū)數(shù)據(jù)中心銷售總經(jīng)理、中國區(qū)運(yùn)營商銷售總經(jīng)理莊秉翰分享了幾組數(shù)據(jù)洞察:預(yù)計(jì)2026年,80%的企業(yè)將會使用生成式AI,50%的企業(yè)會在邊緣計(jì)算部署中涵蓋機(jī)器學(xué)習(xí)。而企業(yè)在生成式AI的投資,預(yù)計(jì)今年達(dá)到400億美元規(guī)模,2027年則會達(dá)到1510億規(guī)模。
在企業(yè)生成式AI這個(gè)大市場,英特爾首先洞察到了“數(shù)據(jù)”蘊(yùn)藏的巨大機(jī)遇。Accenture首席AI官Lan Guan在和英特爾CEO帕特·基辛格(Pat Gelsinger)的對談中,提到了企業(yè)部署AI的三個(gè)常見挑戰(zhàn):首先是企業(yè)難以從AI投資中實(shí)現(xiàn)更大價(jià)值,即使他們有明確定義的AI KPI,但這些通常只是任務(wù)為導(dǎo)向的方法,缺乏整體層面的聚合價(jià)值;其次是數(shù)據(jù)質(zhì)量不足,大多數(shù)都是基于互聯(lián)網(wǎng)通用數(shù)據(jù),而企業(yè)的隱私數(shù)據(jù)和通用模型結(jié)合是一個(gè)很大的挑戰(zhàn);第三是AI技能缺口,企業(yè)需要額外的培訓(xùn)或是專門的人才來構(gòu)建、運(yùn)營和管理AI,以便從項(xiàng)目中獲取到相關(guān)的數(shù)據(jù)或反饋。
那么,企業(yè)究竟該如何部署生成式AI?如何幫助他們釋放龐大的、專有的數(shù)據(jù)集的價(jià)值?帕特·基辛格認(rèn)為,不論是從經(jīng)濟(jì)性、即時(shí)響應(yīng)能力還是數(shù)據(jù)的安全角度,邊緣AI都已是大勢所趨。
正因如此,英特爾首先希望通過AI幫助企業(yè)提升在數(shù)據(jù)檢索和增強(qiáng)生成方面的能力,幫助他們在整個(gè)工作流程中順暢地實(shí)施AI。
RAG(檢索增強(qiáng)生成)技術(shù)——是英特爾最新推出的用于解鎖企業(yè)數(shù)據(jù)資產(chǎn)的生成式AI系統(tǒng)。通過聯(lián)合Anyscale、Articul8、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、VMware、Yellowbrick和Zilliz,這一開放的、多供應(yīng)商的系統(tǒng),可使企業(yè)在標(biāo)準(zhǔn)云基礎(chǔ)設(shè)施上運(yùn)行的大量現(xiàn)存專有數(shù)據(jù)源得到開放大語言模型(LLM)功能的增強(qiáng)。
英特爾院士、大數(shù)據(jù)技術(shù)全球首席技術(shù)官、大數(shù)據(jù)分析和人工智能創(chuàng)新院院長戴金權(quán)認(rèn)為,構(gòu)建生成式AI應(yīng)用不僅僅是擁有一個(gè)大模型那么簡單,實(shí)際上涉及創(chuàng)建一個(gè)完整的AI系統(tǒng),其中包括大模型和其他組件,以形成一個(gè)工作流。RAG就是一個(gè)典型的例子,它解決了如何對大模型進(jìn)行知識增強(qiáng)的問題,通過結(jié)合個(gè)人、私有或垂直領(lǐng)域的知識,以及使用增強(qiáng)數(shù)據(jù)庫、知識圖譜和規(guī)劃方法等技術(shù),構(gòu)建復(fù)雜的AI系統(tǒng)。
近期一些新的應(yīng)用場景,如Copilot,無論是用于編寫代碼還是個(gè)人電腦使用,都體現(xiàn)了生成式AI的實(shí)際應(yīng)用?!霸谶@些復(fù)雜的AI系統(tǒng)中,大模型充當(dāng)著核心控制器或大腦的角色,與個(gè)人和私有知識以及其他工具相結(jié)合,以解決各種應(yīng)用場景的問題,這是生成式AI發(fā)展的趨勢”,戴金權(quán)表示。
英特爾公司副總裁、英特爾中國軟件和先進(jìn)技術(shù)事業(yè)部總經(jīng)理李映補(bǔ)充,RAG能夠?qū)ζ髽I(yè)內(nèi)部私有數(shù)據(jù)和公開的大模型進(jìn)行整合。通過開放聯(lián)盟的形式,英特爾旨在建立一個(gè)開放平臺,促進(jìn)不同RAG組件之間的互聯(lián)互通,共同推動(dòng)企業(yè)AI架構(gòu)的構(gòu)建和發(fā)展。這一戰(zhàn)略不僅加強(qiáng)了企業(yè)內(nèi)部數(shù)據(jù)的利用,還推動(dòng)了整個(gè)AI生態(tài)系統(tǒng)的創(chuàng)新和協(xié)作。
李映也分享了英特爾的AI軟件戰(zhàn)略,他表示,未來,英特爾軟件業(yè)務(wù)非常重要的一方面是如何通過軟件加速企業(yè)AI的發(fā)展。而企業(yè)AI的軟件發(fā)展方向集中在如何將傳統(tǒng)的云架構(gòu)與新興的、基于大數(shù)據(jù)和大模型的AI架構(gòu)相融合。
軟件在此過程中扮演著加速器的角色,確保無論是CPU還是GPU,硬件性能得到最大化利用,并促進(jìn)不同硬件架構(gòu)之間的互操作性。此外,軟件還負(fù)責(zé)在傳統(tǒng)架構(gòu)和AI應(yīng)用之間進(jìn)行資源的高效分配和管理。英特爾不僅是AI軟件創(chuàng)新的推動(dòng)者,例如在PyTorch框架中的重要貢獻(xiàn),而且還致力于將最新的技術(shù)成果集成到開源框架中,如oneAPI的推廣和應(yīng)用。
算力升級——至強(qiáng)6、Gaudi 3齊開“卷”
至強(qiáng)6品牌煥新
在大模型和生成式AI智力涌現(xiàn)的背后,算力是行業(yè)關(guān)注的重點(diǎn)。英特爾的至強(qiáng)系列推出第六代產(chǎn)品,不同于以往單一產(chǎn)品的推出,此次是基于兩種微架構(gòu)設(shè)計(jì):性能核(P-core)和能效核(E-Core)的產(chǎn)品組合,旨在解決數(shù)據(jù)中心在性能、功耗和多樣化工作負(fù)載等方面的挑戰(zhàn)。
配備能效核的英特爾至強(qiáng)6處理器(此前代號為Sierra Forest),可將機(jī)架密度提高2.7倍;客戶能以近3:1的比例替換舊系統(tǒng),大幅降低能耗,幫助其實(shí)現(xiàn)可持續(xù)發(fā)展目標(biāo)。這意味著,如果使用第二代至強(qiáng)可擴(kuò)展處理器需要200個(gè)服務(wù)器機(jī)架的話,轉(zhuǎn)而使用能效核只需要72個(gè)服務(wù)器機(jī)架。這樣的改進(jìn)不僅大幅減少了所需的物理空間,還節(jié)省了超過1兆瓦的功耗。
配備性能核的英特爾至強(qiáng)6處理器(此前代號為Granite Rapids),包含了對MXFP4數(shù)據(jù)格式的軟件支持,與使用FP16的第四代至強(qiáng)處理器相比,可將下一個(gè)令牌(token)的延遲時(shí)間最多縮短6.5倍,能夠運(yùn)行700億參數(shù)的Llama-2模型。
英特爾市場營銷集團(tuán)副總裁、中國區(qū)云與行業(yè)解決方案部總經(jīng)理梁雅莉,首先以金山云的合作案例,介紹了至強(qiáng)在提升云服務(wù)性能方面的重要作用。通過與金山云的合作,英特爾針對X7云服務(wù)器進(jìn)行了優(yōu)化,顯著提高了Stable Diffusion、Llama2和ChatGLM2等大模型的推理性能,其中Stable Diffusion的性能提升了4.96倍。這種優(yōu)化不僅使算力更易于獲取、具有通用性和可靠性,還簡化了部署過程,降低了成本,并允許靈活運(yùn)行其他負(fù)載。
此外,京東云基于搭載至強(qiáng)的基礎(chǔ)設(shè)施,在智能營銷和客服等領(lǐng)域?qū)崿F(xiàn)了AI的廣泛應(yīng)用,新一代云服務(wù)器性能提升23%。
除了云服務(wù),英特爾在智能制造、醫(yī)療和教育等多個(gè)關(guān)鍵行業(yè)在推動(dòng)AI技術(shù)的應(yīng)用。在智能制造領(lǐng)域,與TCL華星合作提升生產(chǎn)效率、降低成本;在醫(yī)療領(lǐng)域,與英矽智能共同利用AI加速藥物發(fā)現(xiàn)過程;在教育領(lǐng)域,與華東師范大學(xué)合作開發(fā)大模型一體機(jī),提高教師工作效率并支持終身學(xué)習(xí)。
梁雅莉表示,去年,“百模大戰(zhàn)”重點(diǎn)關(guān)注AI大模型的訓(xùn)練;而今年,頭部互聯(lián)網(wǎng)和大模型公司面臨的挑戰(zhàn)是如何將生成式AI落地并變現(xiàn);其他企業(yè)則需要考慮如何選擇適合的大模型來融入生產(chǎn)或業(yè)務(wù)流程中創(chuàng)造價(jià)值。
“這要求企業(yè)根據(jù)具體情況選擇最合適的AI策略和基礎(chǔ)設(shè)施,企業(yè)需要考慮如何在確保經(jīng)濟(jì)適用性的同時(shí),找到最合適的方案來實(shí)現(xiàn)AI的實(shí)際價(jià)值”,她補(bǔ)充,“英特爾致力于將AI技術(shù)落地,為行業(yè)帶來實(shí)際價(jià)值?!?/p>
用于AI訓(xùn)練和推理的Gaudi 3
再來看最新發(fā)布的英特爾Gaudi 3 AI加速器。與上一代產(chǎn)品相比,英特爾Gaudi 3將帶來4倍的BF16 AI計(jì)算能力提升,以及1.5倍的內(nèi)存帶寬提升。該加速器將為尋求大規(guī)模部署生成式AI的企業(yè)帶來AI訓(xùn)練和推理方面的重大飛躍。
另據(jù)英特爾公布的Gaudi 3芯片與英偉達(dá)H100芯片的比較,推理能力平均提高50%,能效平均提高40%,運(yùn)行人工智能模型的速度是H100的1.5倍。
在訓(xùn)練70億和130億參數(shù)Llama2模型、以及1750億參數(shù)GPT-3模型時(shí),英特爾Gaudi 3可大幅縮短訓(xùn)練時(shí)間。此外,在Llama 7B、70B和Falcon 180B大語言模型(LLM)的推理吞吐量和能效方面也展現(xiàn)了出色性能。
值得一提的是,Gaudi 3 AI加速器采用以太網(wǎng)通用標(biāo)準(zhǔn)連接,這一被廣泛應(yīng)用的行業(yè)標(biāo)準(zhǔn)有助于單個(gè)節(jié)點(diǎn)向擁有數(shù)千個(gè)節(jié)點(diǎn)的集群進(jìn)行擴(kuò)展,比如在AI系統(tǒng)中連接多達(dá)數(shù)萬個(gè)加速器,支持大規(guī)模的推理、微調(diào)和訓(xùn)練。
英特爾還將首次提供采用PCIe規(guī)格的Gaudi 3版本,HL-338卡是一款10.5英寸的全高雙槽PCIe卡,提供與OAM Gaudi 3相同的所有硬件,甚至可達(dá)到1835 TFLOPS FP8的峰值性能。
AI高速互聯(lián),推動(dòng)開放式以太網(wǎng)網(wǎng)絡(luò)創(chuàng)新
AI系統(tǒng)目前主要還是基于馮·諾依曼架構(gòu),依賴于計(jì)算能力和數(shù)據(jù)傳輸性能。隨著大模型的規(guī)模增長至萬億參數(shù),分布式并行系統(tǒng)成為滿足推理和訓(xùn)練需求的關(guān)鍵。由于訓(xùn)練過程中產(chǎn)生的大量中間結(jié)果需要在多個(gè)加速卡之間共享,導(dǎo)致網(wǎng)絡(luò)流量呈現(xiàn)瞬時(shí)并發(fā)特征,易造成擁塞,因此解決網(wǎng)絡(luò)擁塞問題成為提升大模型性能和擴(kuò)展規(guī)模的核心挑戰(zhàn)。
當(dāng)前,在AI大模型系統(tǒng)的互連技術(shù)中,主要存在兩種方法:縱向(Scale up)和橫向(Scale out)。Scale up專注于單個(gè)計(jì)算節(jié)點(diǎn)內(nèi)部的互連,它主要處理的是節(jié)點(diǎn)內(nèi)部不同加速卡之間的數(shù)據(jù)傳輸和通信。在AI應(yīng)用中,Scale up允許多個(gè)處理器或加速器在同一節(jié)點(diǎn)內(nèi)高效地共享數(shù)據(jù),這對于保持高性能計(jì)算至關(guān)重要。例如,在訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)時(shí),節(jié)點(diǎn)內(nèi)部的多個(gè)GPU需要頻繁交換大量數(shù)據(jù),Scale up技術(shù)能夠確保這些交換快速且無縫進(jìn)行,減少數(shù)據(jù)瓶頸和延遲。
而Scale out關(guān)注的是計(jì)算節(jié)點(diǎn)之間的互連。這種方法涉及將多個(gè)計(jì)算節(jié)點(diǎn)連接起來,形成一個(gè)強(qiáng)大的分布式計(jì)算網(wǎng)絡(luò)。在AI領(lǐng)域,Scale out支持大規(guī)模并行處理,使得可以同時(shí)在多個(gè)節(jié)點(diǎn)上運(yùn)行不同的計(jì)算任務(wù)。這種方法對于處理龐大的數(shù)據(jù)集和復(fù)雜的AI模型尤為重要,因?yàn)樗试S系統(tǒng)擴(kuò)展到更多的硬件資源,從而提高整體的處理能力和效率。
為了支持大規(guī)模scale-up和scale-out高速互聯(lián),英特爾正在通過超以太網(wǎng)聯(lián)盟(UEC),驅(qū)動(dòng)面向AI高速互聯(lián)技術(shù)(AI Fabrics)的開放式以太網(wǎng)網(wǎng)絡(luò)創(chuàng)新,并推出一系列針對AI優(yōu)化的以太網(wǎng)解決方案。英特爾的產(chǎn)品組合包括英特爾AI網(wǎng)絡(luò)連接卡(AI NIC)、集成到XPU的AI連接芯粒、基于Gaudi加速器的系統(tǒng),以及一系列面向英特爾代工的AI互聯(lián)軟硬件參考設(shè)計(jì)。
英特爾中國網(wǎng)絡(luò)與邊緣事業(yè)部首席技術(shù)官、英特爾高級首席AI工程師張宇表示,當(dāng)前在Scale out互連技術(shù)領(lǐng)域,InfiniBand較為封閉,而以太網(wǎng)雖然生態(tài)龐大、產(chǎn)品多樣,但最初設(shè)計(jì)并未針對復(fù)雜應(yīng)用場景,更適用于互聯(lián)網(wǎng)這種可容忍數(shù)據(jù)包丟失的場景。但是在AI大模型訓(xùn)練中,數(shù)據(jù)包丟失可能導(dǎo)致巨大開銷,因此需要一個(gè)可靠的網(wǎng)絡(luò)系統(tǒng)來應(yīng)對瞬時(shí)并發(fā)和脈沖式尖峰的網(wǎng)絡(luò)流量。目前,以太網(wǎng)方案如RoCE V2協(xié)議已有所改進(jìn),但仍不完善。
超以太網(wǎng)聯(lián)盟旨在改進(jìn)以太網(wǎng)技術(shù),創(chuàng)建端到端的協(xié)議,以應(yīng)對大模型中的網(wǎng)絡(luò)挑戰(zhàn)。目前聯(lián)盟已發(fā)布相關(guān)白皮書,英特爾在其中做出了貢獻(xiàn),并希望將這些開放協(xié)議應(yīng)用于產(chǎn)品中,實(shí)現(xiàn)不同廠商和合作伙伴產(chǎn)品的協(xié)同工作,構(gòu)建完整網(wǎng)絡(luò)。“開放的好處在于提供更多選擇,能夠降低成本,歷史已多次證明這一點(diǎn)”,張宇強(qiáng)調(diào)。
今年下半年,英特爾將推出第一代基于ASIC IPU的產(chǎn)品,也就是基礎(chǔ)架構(gòu)處理器產(chǎn)品。它能夠提供200GB/s的速度,同時(shí)能夠提供靈活的包處理能力,滿足大模型時(shí)代的網(wǎng)絡(luò)要求。
另據(jù)透露,AI NIC會有兩種形態(tài):一是獨(dú)立網(wǎng)卡,可以和不同加速器進(jìn)行對接;另一種是芯粒形態(tài),不同AI加速器甚至可以把AI NIC集成到SoC芯片中,英特爾2026年推出的AI加速器將會集成AI NIC。
寫在最后
如果要描述英特爾生成式AI的戰(zhàn)略方向,個(gè)人認(rèn)為“開放、生態(tài)、系統(tǒng)化”比較有代表性。面對生成式AI對更高、更強(qiáng)算力的狂熱追求,英特爾更加注重發(fā)揮開放平臺和強(qiáng)大生態(tài)的力量,并且正在通過旗下的全棧技術(shù)去形成更有競爭力的系統(tǒng)化方案。
帕特·基辛格演講中的一張圖令人印象深刻,針對企業(yè)AI,英特爾聯(lián)合了近20家公司去構(gòu)建了一個(gè)開放平臺。
生成式AI趨勢下,開放、開源、閉源技術(shù)在并行演進(jìn),玩家越來越多,在這個(gè)自然演變的過程中,難以預(yù)測誰是未來的大贏家,也正是如此,這個(gè)聯(lián)盟初次亮相就有如此豐富的陣容。而包括英特爾在內(nèi)的聯(lián)盟成員,如何推動(dòng)標(biāo)準(zhǔn)框架的演進(jìn),融入更多、更開放的玩家,保證產(chǎn)業(yè)進(jìn)程整體的發(fā)展方向,將是一場誰都不能丟棒的接力賽。