由“模型熱”引發(fā)的“智算熱”仍在持續(xù),大量政企用戶一方面看到了大模型技術(shù)給業(yè)務(wù)帶來的新突破點,另一方面深深擔心成本及算力供應(yīng)的持續(xù)穩(wěn)定,行業(yè)亟需找到一個緩解供需矛盾的“最優(yōu)解”。
9月19日,在2024云棲大會上,阿里云“上”(上層大模型服務(wù)平臺)“下”(底層算力)結(jié)合,打出一套“組合拳”。一方面,飛天云計算操作系統(tǒng)企業(yè)版“智算升級”,將智算能力深度融入專有云平臺,實現(xiàn)通用算力、超算、智算的一網(wǎng)調(diào)度,滿足政企客戶“云+AI”協(xié)同發(fā)展需求;另一方面,大模型服務(wù)平臺百煉專屬版2.0正式發(fā)布,可基于公共云VPC和專有云部署,為政企客戶安全、快速地開發(fā)大模型保駕護航。
“飛天”與“百煉”的雙雙升級,標志著阿里云智能化服務(wù)能力再度提升,為AI時代全面深入政企市場做好了準備。
有卡不等于有算力,云上集約化算力成最優(yōu)解
當前,“模型熱”正在引發(fā)一場算力革命。不同于傳統(tǒng)IT時代,AI時代對基礎(chǔ)設(shè)施的性能、效率要求更高,CPU主導(dǎo)的通用計算體系已快速向GPU主導(dǎo)的AI計算體系轉(zhuǎn)移。中國互聯(lián)網(wǎng)協(xié)會最新發(fā)布的《中國互聯(lián)網(wǎng)發(fā)展報告(2024)》顯示,2024年上半年我國智能算力在算力市場的比重已經(jīng)超過30%。
作為大模型落地的一個重要標的,政企市場對于AI算力的需求也在持續(xù)增長。阿里云智能副總裁、產(chǎn)品解決方案與服務(wù)管理總經(jīng)理霍嘉介紹稱:“政企市場主要有三類場景帶來了龐大的智算需求。第一類是城市智算,各地都有一些以政府或者政府所管轄的國資企業(yè)所投資的智算集群正在快速建設(shè)中;第二類是科研智算,像生物、環(huán)境、材料、地理(生化環(huán)材醫(yī))等科研領(lǐng)域?qū)τ诖竽P图夹g(shù)的使用比較多,已經(jīng)開始出現(xiàn)租用智算集群的現(xiàn)象;第三類是企業(yè)智算,這類企業(yè)更多的是在探索一些大模型應(yīng)用的試點場景,這也會帶來一些智能算力方面的需求。”
隨著一系列新場景、新業(yè)態(tài)的出現(xiàn),政企數(shù)字化轉(zhuǎn)型的焦點也在發(fā)生改變。過去在信息化時代,政企數(shù)字化轉(zhuǎn)型本質(zhì)上是從以流程驅(qū)動為核心的傳統(tǒng)商業(yè)化套件向以數(shù)據(jù)驅(qū)動核心業(yè)務(wù)再造的方向轉(zhuǎn)變,最典型的案例就是很多企業(yè)都構(gòu)建了數(shù)據(jù)中臺。而今天進入智能化時代,政企數(shù)字化轉(zhuǎn)型目標已經(jīng)轉(zhuǎn)化為結(jié)合自身業(yè)務(wù)場景,利用大模型等AI技術(shù)來創(chuàng)造更新的價值。
阿里云智能副總裁、專有云總經(jīng)理劉國華指出,現(xiàn)在政企客戶主要關(guān)心兩件事,一是供應(yīng)鏈韌性的問題,二是成本的問題。大模型技術(shù)的快速發(fā)展在給政企客戶的業(yè)務(wù)帶來新突破點的同時又帶來了新的供應(yīng)鏈韌性問題和成本問題,因此他們期盼能夠建立起一個新的AI基礎(chǔ)設(shè)施標準,滿足“云+AI”協(xié)同發(fā)展的要求,最大化提升整體的成本效率。
目前來看,大模型智算平臺仍面臨一些挑戰(zhàn)。比如性能方面,模型的訓(xùn)練背后需要非常強算力的基礎(chǔ)設(shè)施支撐,如今,萬卡已經(jīng)成為模型訓(xùn)練的標配,集群規(guī)模的不斷擴大,無疑對底層AI基礎(chǔ)設(shè)施的處理效率提出更高的挑戰(zhàn);再比如,訓(xùn)練任務(wù)的穩(wěn)定性,GPU服務(wù)器出故障的概率比傳統(tǒng)X86架構(gòu)的CPU服務(wù)器出故障的概率要高得多,如何讓一個集群穩(wěn)定支持任務(wù)長周期的運行非常重要;此外,多芯兼容也是一個難題,智算平臺要變得又好用又易用,就必須能夠平滑地使用不同芯片所提供的算力。
業(yè)內(nèi)普遍認為,智算雖“火”,但市場上還存在很多用卡效率不高的情況。換言之,有卡也不一定有算力。GPU卡要把它真正用起來,在工程上面臨非常大的挑戰(zhàn)。因此,智算不僅僅是卡的問題,而是一個軟硬件協(xié)調(diào)的系統(tǒng),涉及算、存、網(wǎng)等多種核心能力,缺一不可。
正如霍嘉所言:“今天我們所說的大模型算力基礎(chǔ)設(shè)施,絕對不是把一堆硬件簡單堆砌在一起,而是通過云計算平臺把芯片、服務(wù)器、網(wǎng)絡(luò)、存儲有機調(diào)動起來,從而形成云上集約化的高效算力。”
飛天+百煉,阿里云揮出政企智能化服務(wù)“組合拳”
面對政企市場在AI時代的新需求,阿里云拿出了自己的“看家本領(lǐng)”,即從底層算力到上層大模型服務(wù)平臺的全棧式智能化服務(wù)體系。“下”有飛天企業(yè)版,與阿里云公共云技術(shù)同根同源,采用同一套技術(shù)架構(gòu),通過一云多芯、一云多算等核心能力,為AI大規(guī)模在政企市場落地提供底座支撐;“上”有百煉平臺,集成了國內(nèi)外主流優(yōu)質(zhì)大模型,提供模型選型、微調(diào)訓(xùn)練、安全套件、模型部署等服務(wù)和全鏈路的應(yīng)用開發(fā)工具,讓政企客戶不再被底層算力部署、模型預(yù)訓(xùn)練、工具開發(fā)等復(fù)雜工作困擾,降低AI應(yīng)用門檻和使用成本。
實際上,歷經(jīng)了10年的發(fā)展與沉淀,阿里云的全棧式智能化服務(wù)已融入政企市場各個領(lǐng)域。比如,在汽車制造領(lǐng)域,中國一汽基于阿里云通義千問打造的大模型應(yīng)用GPT-BI可5秒生成智能報表,輔助業(yè)務(wù)決策,模型準確率達92.5%,這意味著GPT-BI在研產(chǎn)供銷多種場景上都具有優(yōu)秀的預(yù)測能力和泛化性能。
在安全防控領(lǐng)域,陜煤集團旗下的建新煤礦使用通義大模型同時監(jiān)控十余座礦山的生產(chǎn)環(huán)境,實現(xiàn)了從“主要靠人防”到“更多靠技術(shù)防”的轉(zhuǎn)變,為安全防控打開了新思路。
在醫(yī)藥研發(fā)領(lǐng)域,阿斯利康基于通義大模型搭建的藥品不良反應(yīng)自動分析和總結(jié)平臺,使藥物安全把控效率提升300%,準確率從90%提升至95%,這將提高藥物開發(fā)效率。
在科研探索領(lǐng)域,中國科學(xué)院國家天文臺人工智能組基于阿里云通義千問打造的天文大模型“星語3.0”,可實現(xiàn)自主控制望遠鏡進行觀測、分析觀測結(jié)果,智能地給出下一步觀測建議,將科研人員從繁瑣的觀測中解放出來,更加專注于研究。
記者了解到,今年以來,阿里云飛天企業(yè)版已實現(xiàn)三大技術(shù)升級。首先,支持多芯的GPU融合管理。具體來看,飛天企業(yè)版可支持23款不同的GPU接入管理;公專一體的網(wǎng)絡(luò)架構(gòu)可支持單一集群1.5萬卡的建設(shè);通過GPU池化和虛擬化技術(shù),支持異構(gòu)GPU資源實現(xiàn)統(tǒng)一的池化管理,可將整個GPU的利用率提升100%;針對推理場景進行性能的優(yōu)化,可將通信帶寬整體提升100%以上,模型的吞吐量提升23%。
其次,通過AI PaaS層來提升整個智算的落地效率?!拔覀兛商峁┮徽臼?a class="article-link" target="_blank" href="/tag/AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/">AI大模型開發(fā)與服務(wù)能力,并兼容多個主流開源的模型,希望給客戶更多的選擇,同時也提供了一個統(tǒng)一的運營管理平臺,提供算力運營、模型運營以及整體運營的支撐,幫助客戶構(gòu)建可運營的AI平臺,讓他們可以基于阿里云的平臺去構(gòu)建自己的模型生態(tài)。”劉國華表示。
此外,阿里云還對自己的云平臺進行了智能化升級。一方面,基于過去十年的運維經(jīng)驗推出了智能運維大模型“云小智”,日常運維效率能提升50%;另一方面,通過探索開發(fā)智能化,讓整個云平臺快速向智能化方向進化。
“今天,很多用戶把大模型應(yīng)用當成一個‘目的’,但實際上我們應(yīng)該先弄清楚,大模型到底能做什么事兒?你的場景是什么?”阿里云智能副總裁、解決方案研發(fā)部總經(jīng)理曾震宇強調(diào),“大模型相當于一把‘錘子’,它只是一個提升效率的工具。只有使用者能夠?qū)λ幸粋€合理恰當?shù)念A(yù)期,知道在自己的業(yè)務(wù)場景中,大模型究竟能解決什么問題,才能讓它真正發(fā)揮出自己的價值?!?/p>
作者丨宋婧編輯丨趙晨美編丨馬利亞監(jiān)制丨連曉東