加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • ?01何為算力與存力?
    • ?02爭搶GPU,以期獲得更多算力
    • ?03存力,如何助力算力?
    • ?04、需要什么樣的存儲?
    • ?05存力中心建設,如火如荼
  • 相關推薦
  • 電子產業(yè)圖譜
申請入駐 產業(yè)圖譜

存力與算力,AI時代誰主沉???

10/08 09:19
1627
閱讀需 17 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者:豐寧

在 2024 年的今天,人工智能已經滲透到各個領域,從醫(yī)療診斷到智能交通,從金融分析到智能家居,AI 技術的發(fā)展正以前所未有的速度改變著我們的生活和工作方式。

這一背景下,算力和存力成為了支撐人工智能發(fā)展的兩大關鍵要素。究竟算力與存力誰更重要,成為了一個備受關注的問題。

?01何為算力與存力?

算力,顧名思義,是指計算能力。

算力是數字時代的核心驅動力之一。隨著人工智能、大數據等技術的不斷進步,算力的需求呈現出爆炸式增長。從云端的大規(guī)模數據處理到邊緣設備的實時計算,算力的提升使得我們能夠更快地處理數據、更準確地模擬復雜現象。

存力即數據存儲能力。海量的數據需要安全、可靠的存儲空間,而存力就是提供這一空間的關鍵。大數據、云存儲、區(qū)塊鏈等技術的發(fā)展,使得數據的存儲和管理變得更加高效。同時,隨著數據價值的不斷提升,存力的重要性也日益凸顯。強大的存力不僅可以保證數據的安全性和可靠性,還能夠為數據分析和挖掘提供堅實的基礎。除了算力與存力,還有“一力”與這二者并稱為“數據時代的三把利劍”,即運載力,簡稱運力。

運力是信息傳遞的關鍵。在數字世界中,數據的快速傳輸和高效共享至關重要。高速的網絡連接、穩(wěn)定的帶寬以及低延遲的通信,這些都是運力的體現。去年,工信部等六部門聯合印發(fā)《算力基礎設施高質量發(fā)展行動計劃》,提出到2025年,計算力方面,算力規(guī)模超過300EFLOPS,智能算力占比達到35%,東西部算力平衡協調發(fā)展。

運載力方面,國家樞紐節(jié)點數據中心集群間基本實現不高于理論時延1.5倍的直連網絡傳輸,重點應用場所光傳送網(OTN)覆蓋率達到80%,骨干網、城域網全面支持IPv6,SRv6等創(chuàng)新技術使用占比達到40%。

存儲力方面,存儲總量超過1800EB,先進存儲容量占比達到30%以上,重點行業(yè)核心數據、重要數據災備覆蓋率達到100%。算力、存力與運力皆舉足輕重,而要論誰最重要,恐怕多數人都會覺得是算力。畢竟,“算力緊缺”的氣氛常常被渲染起來。

?02爭搶GPU,以期獲得更多算力

那么,如何獲取更多的算力呢?當下,主流的途徑是通過堆積算力芯片來實現,包括 CPU、GPU、FPGA、ASIC 等,其中GPU的應用最為廣泛。在 AI 大火之際,科技巨頭們紛紛投身于一場激烈的 GPU 爭奪戰(zhàn)中。值得注意的是,由于單卡算力相對有限,為了縮短訓練時間,通常采用分布式訓練技術,通過多臺節(jié)點構建出一個計算能力和顯存能力超大的集群。從建設進度上看海外頭部廠商在2022年、2023年已經完成萬卡集群搭建,國內頭部互聯網廠商和電信運營商也加速萬卡集群建設布局。2023年5月,谷歌推出的AI超級計算機A3,搭載了約26000塊英偉達H100 GPU。

在2022年,META宣布了一個由1.6萬塊英偉達A100 GPU組成的集群。到了2024年初,META進一步擴大規(guī)模,建成了兩個各含24576塊GPU的集群,并設定了宏偉目標:到2024年底,構建一個包含35萬塊英偉達H100 GPU的龐大基礎設施。2023年8月,特斯拉上線了一個集成1萬塊英偉達H100 GPU的集群。亞馬遜的Amazon EC2 Ultra集群采用了2萬個H100 TensorCore GPU。騰訊推出的星脈高性能網絡,能夠支持高達10萬卡GPU的超大規(guī)模計算,網絡帶寬高達3.2T。字節(jié)跳動提出的MegaScale生產系統,支撐12288卡Ampere架構訓練集群。中國移動計劃今年商用哈爾濱、呼和浩特、貴陽三個自主可控的萬卡集群,總規(guī)模接近6萬張GPU卡。

中國電信計劃在2024年上半年在上海規(guī)劃建設一個達到15000卡、總計算力超過4500P的國產萬卡算力池,這將是國內首個超大規(guī)模國產算力液冷集群。2024年3月,天翼云上海臨港國產萬卡算力池已正式啟用。中國聯通計劃在今年內,在上海臨港國際云數據中心建成中國聯通首個萬卡集群,這一集群的建成,將為中國聯通在數據中心和云計算市場提供新的競爭優(yōu)勢。

可以看到,萬卡集群的建設正如火如荼地進行著。然而,當擁有如此眾多的算力芯片時,它們是否已充分發(fā)揮出最大潛力呢?

就目前狀況而言,答案似乎是否定的。因為算力的釋放并非僅僅關乎 GPU 等算力芯片,而是需要全面考慮數據存儲、處理速度、網絡傳輸等多個環(huán)節(jié)的協同作用。

在此背景下,存力作為算力釋放過程中的重要一環(huán),其潛力和價值逐漸受到重視。這時候,或許會有讀者發(fā)問:存力是否能成為提升算力水平、優(yōu)化算力利用的關鍵因素?存力究竟能在哪些方面為算力提供助力?以及,為了更有效地支持算力的提升,存力又該如何發(fā)展?

?03存力,如何助力算力?

如今隨著大模型進一步演進,不同要素的資源配置情況逐步發(fā)生了改變。其中,數據的重要性正提到了前所未有的高度,由此也正在帶來對存儲越來越嚴苛的要求。在一個全新的視角下,數據與其背后的“存力”,正在成為影響大模型創(chuàng)新整體過程的關鍵因素。存力給算力帶來的助力主要有以下幾點:

首先,高效的存儲能力直接促進了數據處理速度的飛躍。隨著大模型訓練過程中數據量的爆炸性增長,快速、穩(wěn)定的數據讀取與寫入成為提升模型訓練效率的關鍵。存力通過優(yōu)化存儲架構、采用高性能存儲介質以及智能數據管理技術,實現了數據訪問的低延遲與高并發(fā),極大地縮短了數據處理周期,使得模型能夠更快地從海量數據中汲取知識,加速迭代與優(yōu)化。

其次,存力增強了數據的安全性與可靠性。在大數據時代,數據泄露與丟失的風險日益增加,而強大的存力體系通過加密存儲、多副本冗余、容災備份等機制,確保了數據的完整性和安全性,為模型的持續(xù)運行提供了堅實后盾。

再者,存力還促進了數據的高效共享與協同。在大模型研發(fā)過程中,跨團隊、跨領域的數據合作日益頻繁,高效的存力系統能夠支持數據的快速傳輸與無縫對接,打破信息孤島,促進知識融合與創(chuàng)新。通過構建統一的數據管理平臺,實現數據的集中管理、按需分配與權限控制,不僅提高了數據資源的利用效率,也加速了科研成果的轉化與應用。

最后,存力的發(fā)展還推動了智能化存儲解決方案的誕生,為大模型提供了更加靈活、智能的數據支撐。借助AI算法與機器學習技術,智能存儲系統能夠自動識別數據特征、優(yōu)化存儲布局、預測并滿足數據訪問需求,從而進一步提升數據處理的智能化水平。這種智能化存儲與大模型的深度融合,將為未來的科技創(chuàng)新帶來無限可能。

通俗來講,在人工智能的蓬勃發(fā)展進程中,僅僅擁有強大的 GPU 還遠遠不夠。畢竟數據在處理之前,需要先“搬過來”。有數據顯示,一個規(guī)模達 20 億的數據集,拷貝準備大約整整 30 天。這就意味著倘若沒有出色的存儲系統作為支撐,GPU也“巧婦難為無米之炊”。再者,在后續(xù)的加密存儲以及數據共享等方面,存力皆為算力帶來諸多強大助力。

倘若用建造高樓大廈舉例子,算力便是高聳入云的建筑主體,而存力則是堅實的地基,只有地基穩(wěn)固,大廈才能拔地而起。因此,倪光南院士也曾表示,算力中心的計算能力由存力、算力、運力三個因素決定。倪光南院士認為,用廣義算力去定義一個算力中心,才更準確。

?04、需要什么樣的存儲?

利用SSD來取代HDD

從存儲方式來看,近些年中國數據量的發(fā)展十分迅猛,每年的復合增長率約是30%左右。主要采用機械硬盤HDD,先進半導體存儲技術滯后。閃存和SSD都屬于半導體存儲范疇,前者指存儲介質(閃存顆粒)后者指存儲設備(固態(tài)硬盤) 。從存儲領域的閃存市場占比情況來審視,在全球范圍內,閃存平均水平達到了 41.3%。而美國在這一領域表現突出,閃存占比高達 56.4%。

相比之下,中國的閃存市場占比僅為 20.3%,與全球平均水平和美國相比仍存在一定差距。海量數據的增長,對我國存儲提出了更高的需求,先進存力成為了存力的重要發(fā)展方向。先進存力主要是指企業(yè)級存儲中更加先進的存力,其以“大容量、高性能”為基礎,以“先進介質、高效架構”為支撐,以“開放生態(tài)、綠色低碳、安全可靠”為關鍵,可應用于更廣泛的關鍵場景的存儲能力。

針對這一現象,中國存儲可以做出的改進之一便是利用SSD來取代HDD。當前SSD的演進主要通過兩方面:一方面是容量,另一方面是性能和功耗。在容量方面,AI時代對于高容量的SSD需求正在快速上升。需要SSD不僅有更大的存儲容量,還要能夠在不犧牲性能的前提下,通過技術的改進等提高NAND密度。另外,隨著 TLC 閃存架構開始達到原始存儲容量的極限,QLC 代表了希望不斷突破主流消費 SSD 容量極限的 SSD 制造商的未來。

目前,諸多存儲廠商都已經發(fā)布QLC閃存。在性能和功耗方面,隨著數據中心對于存儲設備速度要求的不斷提升,SSD需要提供更高的IOPS(每秒輸入輸出操作次數)和帶寬(GBPS),在保證高性能的同時必須有效控制功率消耗,實現單位性能所需的能耗降低??上驳氖?,中國已經有一些主流的存儲芯片公司可以提供達到一線的水平和生產能力的存儲產品,在SSD主控芯片方面,國內也已經有十幾家廠商的產品得到商用。隨著SSD成本的不斷下探,有望為存力市場作出更大貢獻。

采用先進的存儲介質和技術

一些先進的存儲介質和技術也可給算力帶來一些助力,比如通過研究和開發(fā)如相變存儲器(PCM)、阻變存儲器(RRAM)和磁性存儲器(MRAM)等新型 NVM 技術。這些存儲器具有高速讀寫、低功耗、高耐用性和非易失性等優(yōu)點,可以作為傳統存儲設備的補充或替代,提高存力和算力。

探索基于新型材料的存儲技術,如二維材料(如石墨烯)。這些材料具有獨特的物理和電子特性,有望實現更高的存儲密度和性能,為未來的存力和算力提升提供新的途徑。

發(fā)展大容量的光存儲技術也是一個不錯的想法,光存儲具有長期保存數據、高容量和低成本等優(yōu)點,可以作為離線存儲或歸檔存儲的選擇,釋放其他存儲設備的空間,提高存力并為算力提供更多的可用存儲資源。通過以上多種方法的綜合應用,可以有效地提升存力,進而為算力的提升提供堅實的基礎和強大的支持。

?05存力中心建設,如火如荼

眼下算力中心興起的同時,還要建設先進的存力中心。

數與算、存與算存在失衡現象,也導致了數據割裂在不同數據中心中,數據歸集難、融合匯聚難、有效治理難、使用加工難、共享流通難,導致算力和應用缺乏有效的高質量數據供給,算力的潛能被抑制,對算力和產業(yè)的賦能價值沒有充分發(fā)揮,數據中心的商業(yè)和產業(yè)持續(xù)正向閉環(huán)存在巨大挑戰(zhàn)。

基于此,華為作為全球領先的信息與通信技術(ICT)解決方案供應商,致力于建設高性能、高可靠的存力中心,以滿足企業(yè)數字化轉型和智能世界建設的需求。華為通過整合自身在存儲技術、云計算、人工智能等領域的優(yōu)勢,為客戶提供全方位的存力解決方案,包括數據存儲、數據管理、數據保護等服務。

隨著云計算業(yè)務的不斷發(fā)展,阿里巴巴也在積極建設大規(guī)模的存力中心。通過采用先進的存儲技術和架構,如分布式存儲、軟件定義存儲等,阿里巴巴能夠為客戶提供高可用、高可靠、高擴展性的存儲服務。同時,阿里巴巴還在不斷探索新的存儲技術和應用場景,如邊緣存儲、云原生存儲等,以滿足不同客戶的需求。

騰訊在云計算、大數據、人工智能等領域擁有強大的技術實力和豐富的經驗,也在積極建設存力中心。騰訊通過優(yōu)化存儲架構、提高存儲效率、加強數據安全等措施,為客戶提供高效、穩(wěn)定、安全的存儲服務。同時,騰訊還在積極探索新的存儲技術和應用模式,如智能存儲、區(qū)塊鏈存儲等,以推動存儲行業(yè)的創(chuàng)新發(fā)展。

中國科學院計算技術研究所作為國內頂尖的科研機構,其在存儲技術領域擁有深厚的技術積累和強大的研發(fā)實力。該研究所致力于建設先進的存力中心,開展存儲技術的研究和開發(fā),包括新型存儲介質、存儲系統架構、存儲算法等方面的研究。通過與企業(yè)合作,將科研成果轉化為實際應用,為我國存儲產業(yè)的發(fā)展提供技術支持。

清華大學計算機科學與技術系在存儲技術領域也有著卓越的研究成果和豐富的教學經驗。該系積極參與存力中心的建設,開展存儲技術的研究和教學工作,培養(yǎng)存儲技術領域的專業(yè)人才。同時,清華大學還與企業(yè)合作,開展產學研合作項目,推動存儲技術的創(chuàng)新和應用。

算、存、運在數據時代至關重要。如果說存力已經開始逐漸受到重視,那么國產運力相對來說可能還是一個“小透明”。在大力發(fā)展算力、支持存力的過程中,請同步關注“運力”的重要性。

相關推薦

電子產業(yè)圖譜

公眾號:半導體產業(yè)縱橫。立足產業(yè)視角,提供及時、專業(yè)、深度的前沿洞見、技術速遞、趨勢解析,鏈接產業(yè)資源,構建IC生態(tài)圈,賦能中國半導體產業(yè),我們一直在路上。