作者 |??三北,編輯?|??漠影
AI基礎(chǔ)設(shè)施新戰(zhàn)場,曙光把軟硬兩把寶刀都磨好了。
隨著大模型發(fā)展中的硬件瓶頸凸顯,軟件優(yōu)化成為一條必由之路。在近日舉辦的2024中國生成式AI大會上,國產(chǎn)算力龍頭中科曙光亮出AI軟件“肌肉”,推出曙光AI基礎(chǔ)軟件系統(tǒng)DAS,為大模型遷移和優(yōu)化提供了一條新捷徑。
眾所周知,中科曙光是國產(chǎn)算力之光的代表。在大模型的驅(qū)動下,曙光又建立起了軟硬一體和AI全鏈路能力,展現(xiàn)了算力玩家能力擴圈的新趨勢。
大模型的發(fā)展勢不可擋。國際數(shù)據(jù)公司IDC的報告預(yù)測,2024年企業(yè)在AI上的投入增長將高達250%。大模型發(fā)展對算力服務(wù)提出了什么新要求?曙光AI基礎(chǔ)軟件系統(tǒng)DAS能提供什么樣的升級服務(wù)和真實價值?通過對話中科曙光智能計算產(chǎn)品事業(yè)部副總經(jīng)理胡曉東,本文對此進行了深入探討。
01.大模型催生AI新戰(zhàn)場,國產(chǎn)算力龍頭“變軟”
大模型產(chǎn)業(yè)正進入高速發(fā)展期,所需的不再是單項算力能力,而是多維綜合能力。根據(jù)IDC中國副總裁鐘振山在近期中國ICT市場趨勢論壇上的發(fā)言,2024年大模型發(fā)展出現(xiàn)五大趨勢:中國大模型在2024年“卷”向產(chǎn)業(yè);開源和閉源共同促進應(yīng)用生態(tài)繁榮;大模型走向手機、PC等端側(cè);多模態(tài)將促使殺手級應(yīng)用出現(xiàn);新一代AI基礎(chǔ)設(shè)施成為下一個戰(zhàn)場。
在AI基礎(chǔ)設(shè)施新戰(zhàn)場,以曙光為代表的核心基礎(chǔ)設(shè)施領(lǐng)軍企業(yè)已經(jīng)提前布局。胡曉東告訴智東西:“我們深知算力是AI技術(shù)發(fā)展的核心驅(qū)動力。然而,僅擁有強大的硬件算力是不夠的,需要軟硬一體化的能力支撐AI技術(shù)的落地應(yīng)用,并聯(lián)合伙伴一起打造完整的AI生態(tài)圈?!?/p>
在與客戶深入交流的過程中,胡曉東和他的團隊發(fā)現(xiàn)許多客戶在AI應(yīng)用過程中面臨著種種挑戰(zhàn),如模型訓(xùn)練效率低下、算法部署困難、算力資源利用率不高等問題。這些問題嚴重影響了AI技術(shù)的普及和應(yīng)用。為了解決這些問題,曙光在今年推出了DAS人工智能基礎(chǔ)軟件系統(tǒng),幫助客戶更快速、更高效地實現(xiàn)AI技術(shù)的落地應(yīng)用。
曙光深耕算力底座基礎(chǔ)能力幾十年,自1993年研發(fā)出國內(nèi)首臺全對稱共享存儲多處理機系統(tǒng)曙光一號之后,逐步完成了對算力產(chǎn)業(yè)的全產(chǎn)業(yè)鏈覆蓋,近年來還推出了國內(nèi)首款規(guī)?;慨a(chǎn)液冷服務(wù)器等核心高端硬件,成為核心硬件實力擔當。DAS人工智能基礎(chǔ)軟件系統(tǒng),是這家算力龍頭向全棧AI階段邁出的關(guān)鍵歷史性一步。
配合曙光基礎(chǔ)硬件及開發(fā)工具棧等能力,DAS人工智能基礎(chǔ)軟件系統(tǒng)聚焦打造一套完整的人工智能軟硬件生態(tài)體系,幫助用戶抵達AI應(yīng)用遷移、開發(fā)及迭代的“最后一公里”。胡曉東談道,DAS人工智能基礎(chǔ)軟件系統(tǒng)是從2019年就基于曙光過往的技術(shù)及項目積累開始投入研發(fā)的,經(jīng)多年不斷發(fā)展,近期逐步產(chǎn)品化并對外發(fā)布:
1、首先,打造算力基礎(chǔ)設(shè)施是曙光在全國產(chǎn)化能力上構(gòu)建的一個最堅實的基礎(chǔ)。
2、第二個是軟件生態(tài),只有通過軟件才能真正將算力發(fā)揮出來。
3、第三方面是平臺層,應(yīng)該是能將底層的硬件能力、軟件能力實現(xiàn)打包統(tǒng)一化交付的能力,依托平臺將整個算力以服務(wù)的形式交付到用戶手上。
可以看到,大模型催生了AI算力新需求,而國產(chǎn)算力之光主動選擇“變軟”,背后是對AI產(chǎn)業(yè)需求和痛點的深入洞察。
02.軟件扛著硬件跑,曙光全棧AI亮劍
當下,市面上已經(jīng)出現(xiàn)了昇騰MindSpore、阿里魔搭等AI開發(fā)平臺及社區(qū),而曙光打造的DAS人工智能基礎(chǔ)軟件系統(tǒng)的一大差異化是國產(chǎn)化自主可控屬性。胡曉東告訴智東西,圍繞過往的產(chǎn)品及技術(shù)的儲備,曙光希望拉通算力底層、軟件棧、平臺、內(nèi)容側(cè),共同打通一套賦能機制,將所有的產(chǎn)品及服務(wù)能力化地交付到用戶手上,構(gòu)建出一套國產(chǎn)AI能力化輸出流程。
站在大模型閉環(huán)角度來看,從模型開發(fā)到場景適配、應(yīng)用部署,從基礎(chǔ)訓(xùn)練到準備資源、準備不同的庫去微調(diào),再到壓縮、推理、服務(wù),到把這個模型輸出,曙光都結(jié)合項目經(jīng)驗和伙伴交流情況進行了分析。
AI賽道性能為王?!懊總€層級有不同的關(guān)注點,對于硬件、軟件棧有不同的需求。從算力來講,通用大模型需要更高算力,很多細分領(lǐng)域則需要更精細的數(shù)據(jù),每個環(huán)節(jié)有不同的關(guān)注特性?!焙鷷詵|在DAS人工智能基礎(chǔ)軟件系統(tǒng)的發(fā)布時說。
曙光如何幫企業(yè)快速把高吞吐率的模型訓(xùn)練出來?DAS人工智能基礎(chǔ)軟件系統(tǒng)從AI組件的納管、性能組件的優(yōu)化、軟件工程化能力的建設(shè)等多方面來打造AI模型的“發(fā)射臺”,助力用戶更輕松應(yīng)對AI領(lǐng)域工作應(yīng)用場景。
1、AI組件納管:廣泛覆蓋框架及加速庫,保持高速迭代一方面,AI組件需要廣泛的基礎(chǔ)。曙光DAS人工智能基礎(chǔ)軟件系統(tǒng)盡可能適配了市面已經(jīng)有的不同的框架、加速庫,包括訓(xùn)練、推理或者通信,從而獲得廣泛的基礎(chǔ)。另一方面,軟件組件需要高速迭代。比如PyTorch、TensorFlow、PaddlePaddle等主流深度學(xué)習(xí)框架都會快速迭代,為此曙光開發(fā)了快速適配工具,從而形成快速適配、快速遷移、快速優(yōu)化的基礎(chǔ)體系。
2、性能組件優(yōu)化:提高計算訪存密度,保障組件性能釋放性能組件層面涉及更多“慢工細活”。首先第一個層面需要做基礎(chǔ)計算庫,保證它有一個基礎(chǔ)能力的運行;同時,對于很多訪存密集型算子,曙光會做手動的融合,去提高計算訪存密度。對于高階開發(fā)者,曙光打造了算子模板庫Composable Kernel,提供Tile級精細的算力能力,便于去快速地生成算子模板。在編譯器層面,DAS人工智能基礎(chǔ)軟件系統(tǒng)則有Triton、OpenXLA、TVM做整體編譯集成,幫助開發(fā)者形成快速整體優(yōu)化的工具,保障所有的組件快速使用,同時保障性能發(fā)揮到極致。
3、軟件工程化能力建設(shè):不同組件及策略整合,大規(guī)模異構(gòu)算力加速比達70%在軟件工程化能力的建設(shè)階段,曙光把各樣的組件、不同的策略進行了整合。以大模型訓(xùn)練為例,一方面曙光結(jié)合像Megatron-DeepSpeed這樣的庫以及各種不同策略的組合,用冗余重計算等手段進行整合,提高大模型訓(xùn)練效應(yīng)。對于推理層面,曙光通過FlashDecoding、FlashAttention等機制進行優(yōu)化,去提高模型的吞吐量,降低延遲。在基于24000張卡進行大模型訓(xùn)練案例中,DAS人工智能基礎(chǔ)軟件系統(tǒng)使得大規(guī)模異構(gòu)算力保持了70%以上的加速比。
總的來說,曙光在性能層面構(gòu)建了一整套開放的AI全棧優(yōu)化能力,實現(xiàn)AI全場景框架組件的全面適配,滿足AI場景快速變化的需求。而在軟件之上,曙光打造了開發(fā)中臺、內(nèi)容平臺、云服務(wù)等一整套平臺能力,實現(xiàn)各種能力的快速遷移調(diào)度,提供完整的云化的服務(wù)環(huán)境??梢钥吹剑锕庖呀?jīng)率先“亮劍”,打造國產(chǎn)大模型的AI基礎(chǔ)軟件“發(fā)射臺”。胡曉東談道,在軟件開發(fā)的過程中團隊遇到的問題有很多,包括技術(shù)難點的攻克,關(guān)鍵項目的交付,他們和技術(shù)團隊,和最終客戶、合作伙伴一起,克服了一個個技術(shù)難題,慢慢完善了現(xiàn)在的DAS體系。
03.培育軟硬一體AI生態(tài),加速大模型落地千行百業(yè)
“亮劍”AI大模型時代,中科曙光已涉足行業(yè)實戰(zhàn)。過去一年以來,曙光逐步完善了集“研發(fā)、應(yīng)用、生產(chǎn)、運營”于一體的完整AI生態(tài)鏈,已經(jīng)為數(shù)字金融、智能駕駛、生物醫(yī)療、智慧通信等領(lǐng)域全景賦能。
近日,某公司自主研發(fā)的算力管理平臺與中科曙光智能計算產(chǎn)品成功適配,通過高效管理、智能調(diào)度和穩(wěn)定性觀測等能力,實現(xiàn)計算資源的最優(yōu)化管理和利用,顯著提升穩(wěn)定性,降低運維成本。
某知名產(chǎn)業(yè)大模型已在近日與中科曙光智能計算產(chǎn)品成功適配,結(jié)合中科曙光智能計算產(chǎn)品卓越的計算能力和性價比,在智慧城市領(lǐng)域、時空信息領(lǐng)域、企業(yè)智能服務(wù)等領(lǐng)域提供全國產(chǎn)化行業(yè)應(yīng)用智能體基座,實現(xiàn)全面降本增效。曙光人工智能基礎(chǔ)軟件系統(tǒng)DAS在某工業(yè)檢測領(lǐng)域的應(yīng)用涉及圖像識別、模式分析和數(shù)據(jù)預(yù)測等方面,大大提高了數(shù)據(jù)處理的效率,降低了人為錯誤的風險,并且極大地提升了該領(lǐng)域工業(yè)檢測的準確性和科學(xué)性。
為了推進AI能力化實踐,曙光與產(chǎn)學(xué)研合作落地,包括與國內(nèi)外主流模型適配并探索商業(yè)模式,把AI能力輸出去用作AI集群的設(shè)計,與行業(yè)伙伴的業(yè)務(wù)做結(jié)合等,以此把智能算力-大模型-行業(yè)AI化的流程走通。大模型產(chǎn)業(yè)發(fā)展目前正處于迅猛發(fā)展的階段。大模型在各個領(lǐng)域的應(yīng)用日益廣泛,產(chǎn)業(yè)面臨著多重利好因素,包括政府層面的有力支持、用戶提升生活和工作效率的需求激增,以及科技公司對AI領(lǐng)域的加大投入。胡曉東說,作為國產(chǎn)算力的領(lǐng)軍企業(yè),曙光將持續(xù)打造并完善AI計算產(chǎn)業(yè)生態(tài),為大模型產(chǎn)業(yè)的發(fā)展提供了堅實的算力底座。同時,曙光也積極探索大模型在各行業(yè)的應(yīng)用場景,推動AI技術(shù)的普及和應(yīng)用。
04.結(jié)語:國產(chǎn)大模型破曉時,算力龍頭全棧AI亮劍
隨著“百模大戰(zhàn)”進入深水區(qū),模型參數(shù)量增長和模型增多帶來了底層算力的爆發(fā)式需求,也為基礎(chǔ)設(shè)施廠商帶來巨大的機遇。透過中科曙光在大模型時代的AI新布局,我們看到這家算力龍頭已將AI生態(tài)建設(shè)升級為一大戰(zhàn)略舉措,亮劍全棧AI。
國產(chǎn)大模型破曉時,國外對中國的算力進行禁運,為產(chǎn)業(yè)發(fā)展帶來了嚴峻挑戰(zhàn)。如果我們把大模型的浪潮比作淘金,首先淘到淘不到不知道,鏟子就不夠用了。而要解決“鏟子”問題,僅靠堆硬件是無法勝任的,而是需要軟件加持、軟硬結(jié)合的閉環(huán)思路。奔赴使命,算力龍頭開始打造全棧AI能力。
以人工智能基礎(chǔ)軟件系統(tǒng)DAS為抓手,曙光正將其幾十年的算力積累與大模型的時代需求和痛點結(jié)合,為產(chǎn)業(yè)打造優(yōu)質(zhì)模型及應(yīng)用的“發(fā)射臺”,加速國產(chǎn)AI生態(tài)建設(shè),推動國產(chǎn)大模型產(chǎn)業(yè)發(fā)展的進程。