海量數(shù)據(jù)驅動數(shù)據(jù)中心爆發(fā)式增長,巨大流量挑戰(zhàn)的背后,是算力、網力、存力共同支撐起的云計算基礎。與此同時,數(shù)據(jù)中心正式跨入新的發(fā)展階段——云數(shù)據(jù)中心階段。
云技術進入深水區(qū),軟件定義存儲的時代正在到來
“目前,全國80%的科技企業(yè)和超過一半的AI大模型公司跑在阿里云上”,阿里集團董事長蔡崇信在今年的云棲大會上如是說,“日后云計算將成為像水和電一樣的公共服務,成就更多開發(fā)者和企業(yè)。”
換言之,在全球數(shù)字經濟蓬勃發(fā)展下,深度用云將成為必然趨勢。
因此,為了滿足云上業(yè)務的迅猛發(fā)展,以CPU為代表的通用算力,以GPU、NPU為代表的的AI算力,都在以指數(shù)級迅速增加;網絡也從25GE、100GE、200GE快速演進,并將進入400GE、800GE時代;而以SSD為代表的存力,同樣面臨著新的挑戰(zhàn)和訴求,軟件定義存儲的時代正在到來。
- 極致的性能
SSD是計算數(shù)據(jù)的來源與結果數(shù)據(jù)的目的地,其讀寫吞吐速率的高低,將制約整個計算系統(tǒng)的性能。
- 復雜負載下的穩(wěn)定時延
時延是SSD從收到命令到返回命令響應的耗時。云上為了提高并發(fā)能力,業(yè)務請求通常會被拆分為多筆子請求分散到眾多SSD并發(fā)執(zhí)行。任何一塊SSD的時延發(fā)生抖動,都會造成整個業(yè)務請求的延遲。
- 更優(yōu)的TCO
綠色、減碳是云數(shù)據(jù)中心的一貫追求。如何提升能效,以更低的功耗,提供更高的性能,是SSD的重要挑戰(zhàn)。
- 更高的存儲密度
提高數(shù)據(jù)中心資源利用率是云的核心訴求。提高SSD的存儲密度,在單塊SSD內提供更大的存儲容量,可以有效減少所需部署的服務器數(shù)量、交換機/路由器數(shù)量。
平頭哥為什么選擇自研SSD主控芯片?
在將平頭哥為何選擇自研SSD主控芯片之前,我們先來了解一下什么是SSD主控芯片。
一款SSD最核心的元件就是閃存顆粒(數(shù)據(jù)的最終存儲地)、內存顆粒(用于暫存SSD內的眾多管理表項、數(shù)據(jù)緩存)和SSD主控芯片。其中,SSD主控芯片作為SSD的大腦,通常占整體成本的15%左右(以M.2接口產品為例),主要任務是負責主機交互、協(xié)議解析與執(zhí)行、數(shù)據(jù)讀寫、數(shù)據(jù)糾錯、數(shù)據(jù)管理、后臺任務、帶外管理。
一般來講,SSD主控芯片的主要參數(shù)包括支持的閃存顆粒類型、數(shù)量,支持的存取通道數(shù)、通道帶寬,支持的SSD存取標準、接口等。但到了云存儲時代,就需要更懂云的SSD出現(xiàn)。
目前,市場上比較主流的SSD主控品牌主要包括兩類,一類是三星、Intel、西數(shù)這樣的存儲多位一體大廠,還有一類是Marvell、慧榮、群聯(lián)、東芝、瑞昱、英韌等存儲主控領域的佼佼者。
但大家有沒有發(fā)現(xiàn),這些企業(yè)都不是主要的云提供商,而阿里云作為全球排名第三的云廠商,擁有得天獨厚的應用端資源,也最懂面向云計算的SSD主控芯片的需求是怎樣的。同時阿里旗下平頭哥又具備為數(shù)據(jù)中心等應用場景提供強有力的算力底層支撐的實力,就這樣一拍即合。
當然,對于具體的產品定義,為了實現(xiàn)緊密的軟硬件耦合,從而提高數(shù)據(jù)中心的整體效能,平頭哥的架構團隊和兄弟需求部門花了超過半年的時間反復審度,最終確定了鎮(zhèn)岳510的設計目標,在靈活性和高效之間實現(xiàn)了最佳的平衡。
“擴展+定制”,鎮(zhèn)岳510有幾把刷子
大家是不是很好奇,這顆來自于需求端,又經歷了和軟件側、系統(tǒng)側多倫推敲打磨的SSD主控芯片到底有何特點?
根據(jù)阿里云存儲產品線總經理吳結生的介紹,鎮(zhèn)岳510支持先進的PCIe 5.0接口,支持DDR5.0技術,內置玄鐵910 RISC-V多核CPU,采用平頭哥自研緊耦合芯片架構,對SSD任務進行高度抽象,可固化任務硬化為加速算子以提升性能,F(xiàn)TL關鍵任務則運行于玄鐵910CPU以保持靈活性。
鎮(zhèn)岳510每秒可處理高達340萬筆IO,一顆鎮(zhèn)岳510的性能,相當于1萬塊高性能HDD的性能總和。此外鎮(zhèn)岳510擁有極高的能效比,每瓦功耗可提供42萬筆IO訪問。以一個部署了10萬塊SSD的數(shù)據(jù)中心為例,相比目前主流的PCIe 4.0SSD,鎮(zhèn)岳510在相同的性能下,僅主控芯片即每年節(jié)省260萬度電,按照一度電排放0.785千克二氧化碳計算,每年可減少二氧化碳排放2千噸。
鎮(zhèn)岳510內置創(chuàng)新的IO自動化處理機制,前端IO解析與處理,由專用硬件模塊自動完成,實現(xiàn)了業(yè)界領先的超低的時延(4μs),可以帶給應用極佳的體驗,比業(yè)界SSD降低30%以上。不僅如此,鎮(zhèn)岳510芯片內實現(xiàn)了IO/SYS/GC的全鏈路隔離,極大的降低這些任務之間的相互干擾,提供了既低又穩(wěn)定的時延表現(xiàn)。
鎮(zhèn)岳510內置了平頭哥自研的高性能LDPC糾錯算法,編碼效率逼近香農極限,同時ErrorFlow相比業(yè)內SSD更優(yōu)一個數(shù)量級;同時借助平頭哥自研閃存電壓預測算法,可以在各種閃存的不同工況、壽命、溫度等條件下,準確預測閃存電壓漂移,進一步降低LDPC解碼器的輸入誤碼率。其實現(xiàn)了低至10^-18的UBER,相當于每讀取百億億筆數(shù)據(jù),才可能有一筆數(shù)據(jù)糾錯失敗。
此外,鎮(zhèn)岳510通過云和底層芯片的全方位融合聯(lián)合設計,還可以提供更好的用戶體驗。
第一:消除SSD接口稅。通過存儲軟件與NAND特性完美契合,達到數(shù)據(jù)排布的最優(yōu)化,后臺操作的最小化。
第二:全鏈路QoS優(yōu)化。延遲敏感型與帶寬敏感型IO實現(xiàn)了精細化區(qū)分處理,提升延遲敏感型IO的SLA。
第三:智能卸載。可靠性計算卸載至SSD,實現(xiàn)全路徑存儲語義校驗,同時也減輕了服務器主機算力開銷。
當然,除了以上這些功能和性能的擴展以外,鎮(zhèn)岳510還為云做了不少定制,帶來了更優(yōu)秀的存儲體驗。
在傳統(tǒng)的系統(tǒng)方案中,SSD與存儲系統(tǒng)分離設計。SSD負責底層閃存數(shù)據(jù)排布,但無存儲語義而無法達到最佳排布;SSD負責后臺任務,但無法判斷最佳啟停時機;而存儲系統(tǒng)有存儲語義卻無法排布閃存數(shù)據(jù),有最佳時機卻無法啟停SSD后臺任務。上下的割裂給整個存儲系統(tǒng)的性能與壽命帶來了額外消耗,這被稱為“SSD接口稅”。
因此ZNS協(xié)議被發(fā)展出來,通過將盤內FTL層上移至存儲系統(tǒng),達到了存儲系統(tǒng)與閃存特性的完美匹配,消減了“SSD接口稅”。2021年5月,ZNS協(xié)議被收入NVMe規(guī)范2.0版本中,并得到了SPDK、Linux以及各設備商的支持。
鎮(zhèn)岳510完美實現(xiàn)了ZNS協(xié)議,通過靈活的硬件表項加速保持了高IO性能,而Zone分區(qū)狀態(tài)則交由玄鐵910CPU維護,保留了對新協(xié)議的靈活性。此外,鎮(zhèn)岳510定制了Last Sector 隨機寫功能,實現(xiàn)了小報文的多次反復下盤,簡化了ZNS的應用難度。
數(shù)據(jù)請求可以分為帶寬敏感型與時延敏感型,不同的請求應予以不同的處理策略,才能達到業(yè)務最佳SLA。NVMe規(guī)范中制定了以隊列為粒度的標準SQ調度機制,但其靈活性較差,對于業(yè)務種類復雜、追求靈活可配的云存儲系統(tǒng)來說,它并不是最佳選擇。鎮(zhèn)岳510在支持NVMe標準的SQ調度機制的同時,額外定制了基于IO粒度的優(yōu)先級調度機制,允許系統(tǒng)按IO打標,優(yōu)先級種類多達8級,結合云存儲系統(tǒng),能夠更好的保障延遲敏感型業(yè)務的服務質量。
云存儲系統(tǒng)的完整數(shù)據(jù)鏈路 ,從計算端開始,通過網絡到存儲服務器,再通過內部互聯(lián)到達SSD。為了保障數(shù)據(jù)的高可靠,全鏈路應采用語義一致的完整性校驗。但NVMe規(guī)范只規(guī)定了以Sector為單位按照T10 DIF/DIX的校驗機制,與存儲系統(tǒng)的語義并不相同,因此SSD的校驗與存儲系統(tǒng)的校驗產生了差異。
鎮(zhèn)岳510以IO為粒度,遵循上層存儲語義進行校驗,補齊了整個存儲系統(tǒng)的數(shù)據(jù)鏈路校驗的最后一環(huán)。不僅如此,鎮(zhèn)岳510還支持以存儲語義對內部數(shù)據(jù)進行后臺巡檢,而無需再讀出至服務器,節(jié)省了寶貴的PCIe帶寬、服務器內存帶寬與CPU算力。
寫在最后
眾所周知,飛天盤古是阿里云統(tǒng)一的存儲平臺,當前鎮(zhèn)岳510已成功落地飛天盤古,并通過深度協(xié)同設計,提升了數(shù)據(jù)可靠性、SLA以及存儲效能,構建了從芯片到系統(tǒng)的全棧自研分布式存儲,同時鎮(zhèn)岳510提供的ZNS能力與飛天盤古存儲引擎協(xié)同,增強了云存儲的靈活性,推進了數(shù)據(jù)中心往軟件定義閃存方向的發(fā)展。
此外,隨著SSD向ESSD的技術演進,端到端的數(shù)據(jù)交叉校驗、多層次的數(shù)據(jù)靜默風險掃描、靈活的新硬件故障防御機制、高性能和高彈力能力、均一的性能表現(xiàn)、多樣的性能彈性和隔離訴求,以及面向征集的性能容量成本考量都變得非常重要,而隨著鎮(zhèn)岳510 SSD在ESSD產品中的逐步落地,其正在成為ESSD最堅固的基石。