加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關推薦
  • 電子產業(yè)圖譜
申請入駐 產業(yè)圖譜

為大模型專門優(yōu)化 浪潮信息發(fā)布分布式全閃存儲AS13000G7-N系列

05/11 11:13
1376
閱讀需 9 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

北京2024年5月10日?/美通社/ -- 近日,浪潮信息發(fā)布為大模型專門優(yōu)化的分布式全閃存儲AS13000G7-N系列。該系列依托浪潮信息自研分布式文件系統,搭載新一代數據加速引擎DataTurbo,通過盤控協同、GPU直訪存儲、全局一致性緩存等技術為AI大模型數據歸集、訓練、數據歸檔與管理等階段提供強大存儲支撐能力,助力用戶加速大模型系統的創(chuàng)新及應用落地。

化解大模型時代的存儲挑戰(zhàn) 構建堅實的數據存儲底座

大模型已經成為驅動數字經濟深度創(chuàng)新、引領企業(yè)業(yè)務變革、加速形成新質生產力的重要動能,隨著大模型參數量和數據量的極速膨脹,多源異構數據的傳、用、管、存,正在成為制約生成式AI落地的瓶頸之一,用戶亟需構建更加高效的存儲底座。在數據準備階段,在規(guī)模大、來源廣泛、格式多樣的原始數據中,篩選和清洗出利用于訓練的高質量數據常會耗費大量時間;在模型訓練階段,海量小文件數據加載、Checkpoint數據調用對IO處理效率提出嚴苛要求;模型訓練之后,多個數據資源池無法互通、海量冷數據歸檔帶來較高的數據管理復雜度。

作為率先在業(yè)界提出分布式融合存儲的廠商,浪潮信息聚焦行業(yè)客戶的大模型落地需求與核心痛點,基于NVMe SSD研發(fā)出高效適配和優(yōu)化的分布式全閃存儲AS13000G7-N系列。硬件方面,AS13000G7-N是一款2U24盤位的全閃存儲機型,搭載英特爾?至強?第四、第五代可擴展處理器,支持400 Gb 網卡,同時每盤位可配置15.36TB 大容量NVMe SSD。軟件方面,通過集群控制服務將N個節(jié)點聯成一套具有高擴展性的文件系統;通過分布式元數據服務提升海量小文件讀寫性能;通過數控分離架構,實現東西向網絡優(yōu)化,降低IO訪問時延,提升單節(jié)點帶寬。在軟硬件協同創(chuàng)新下,AS13000G7-N充分滿足大模型應用在存儲性能和存儲容量方面的嚴苛需求。

具體來說,在數據準備階段,通過多協議融合互通技術,面對多份、多種協議的數據,存儲底層僅保留一份數據,實現數據共享免搬遷;在模型訓練階段,通過大小IO智能識別和緩存預讀技術快速保存和恢復checkpoint(檢查點)文件,實現TB級訓練數據Checkpoint讀取耗時從10分鐘縮短至10秒內,大幅提升訓練過程中數據加載速度;RDMA/RoCE網絡連接技術和數控分離架構的設計,實現東西向數據免轉發(fā),極限發(fā)揮大模型訓練中硬件網絡帶寬性能;基于盤控協同架構,網絡數據直通NVMe SSD,進一步提升單盤帶寬;在數據歸檔與管理階段,AS13000G7-N提供了多元異構存儲的統一納管能力,保障數據資產高效存儲與管理,大幅提升存儲資源的利用率且最大化數據基礎設施投資回報比。

DataTurbo數據加速引擎,全力保障大模型高效訓練

在大模型的數據應用全流程中,要想使訓練效率達到極致,減少不必要的資源浪費,訓練階段的數據讀寫性能成為重中之重。而想要提升算力利用率、降低模型訓練成本,必須要在數據存儲性能上進行創(chuàng)新。

AS13000G7-N系列具備強大的端到端性能優(yōu)化能力,這也是模型訓練階段最為核心的考量因素。浪潮信息基于計算和存儲協同的理念,依托自研分布式文件系統構建了新一代數據加速引擎DataTurbo,在緩存優(yōu)化、空間均衡、縮短GPU與存儲讀取路徑等方面進行了全面升級。"

  • 智能緩存優(yōu)化,保障大模型訓練速度與質量

AS13000G7-N能夠通過對大小IO的智能識別,進行分類治理,小文件采取聚合的操作,大文件采取切片的操作,所有數據以大小均衡的模式保存到全局緩存中,實現小文件性能提升5倍,大文件性能提升10倍。在模型訓練中斷后,從Checkpoint恢復數據過程中,AS13000G7-N通過緩存預讀技術,提前識別數據的冷熱程度,加速了重復樣本數據的讀取,訓練加載速度提升10倍。無論是讀操作還是寫操作,AS13000G7-N采取了字節(jié)級(Byte)分布式鎖機制,粒度是主流并行文件系統鎖機制粒度的幾十分之一,確保多個節(jié)點訪問共享資源時能夠安全、有序地進行操作,從而保持訓練數據的強一致性和訓練質量。

  • 智能空間均衡,高水位下性能無衰減

AS13000G7-N搭載了浪潮信息自主研發(fā)的分布式并行客戶端技術,相比通用私有客戶端,卸載了獨立的元數據,實現了元數據和數據節(jié)點的高效統一部署,有效提升存儲的并發(fā)能力,充分利用訓練節(jié)點網卡的帶寬,讓GPU算力得到完全釋放。同時在存儲端,相較于業(yè)界主流的文件系統需要在磁盤之上構筑一層文件協議,AS13000G7-N能夠直接對裸盤的空間進行均衡排布,并在管理層面設計了智能空間預分技術,能夠結合用戶前端算力節(jié)點數量、訓練模型的數量,對存儲空間分配進一步進行智能策略預埋。這套組合拳能夠使AS13000G7-N在空間利用率達到95%高水位時,依然可以平穩(wěn)輸出強大的性能。在模型訓練的空間損耗上,AS13000G7-N相較傳統方案,將損耗率降低了85%左右,充分保護了客戶在大模型存儲上的投資。

  • GPU直通存儲,服務萬億參數大模型

當大模型參數在百億級別,GPU對存儲資源的調用效率往往差別不大。但隨著大模型從單模態(tài)走向多模態(tài),數據量指數型增長,訓練效率隨之要求更高。從數據層面來看,AS13000G7-N具備和GPU直通的能力,數據流不經過客戶端緩存,直接到達存儲底層文件系統,縮短GPU與存儲的讀取路徑,這項技術能夠使存儲讀寫帶寬翻倍,大模型訓練加載時間縮短50%。隨著萬卡萬億參數模型時代的到來,GPU直通存儲高效提升數據讀寫訪問的能力將是大模型訓練的標配。

通過上述技術創(chuàng)新,分布式全閃存儲AS13000G7-N憑借領先的性能和管理優(yōu)勢,能夠幫助用戶加速大模型的數據歸集、提升模型訓練效率、簡化海量異構數據的管理,從而推動業(yè)務智能化變革。浪潮信息將借助AS13000G7-N等存儲產品,與合作伙伴加快在場景化方案定制、市場拓展等方面的創(chuàng)新,助力用戶構筑人工智能時代最佳數據存儲底座。

推薦器件

更多器件
器件型號 數量 器件廠商 器件描述 數據手冊 ECAD模型 風險等級 參考價格 更多信息
ATXMEGA128D4-MH 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44
$5.3 查看
CP2102N-A02-GQFN28R 1 Silicon Laboratories Inc USB Bus Controller, CMOS, QFN-28

ECAD模型

下載ECAD模型
$2.5 查看
ATMEGA644PA-AUR 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 44TQFP
$4.99 查看

相關推薦

電子產業(yè)圖譜