美光副總裁暨客戶端存儲事業(yè)部總經(jīng)理Prasad Alluri
近年來,AI技術的迅速發(fā)展加速了存儲技術的創(chuàng)新與迭代,從智能手機的AI應用到汽車自動駕駛、數(shù)據(jù)中心,存儲技術的進步正成為推動AI應用創(chuàng)新的關鍵力量。
在日前舉行的GMIF (Global Memory Industry Forum)2024峰會期間,美光副總裁暨客戶端存儲事業(yè)部總經(jīng)理Prasad Alluri接受了與非網(wǎng)記者的采訪。美光的產(chǎn)品線覆蓋了從企業(yè)計算、客戶端計算到汽車、工業(yè)和邊緣計算等廣泛領域。Prasad Alluri詳細介紹了美光的產(chǎn)品如何滿足不同環(huán)境中的多樣化需求。展示了其如何通過存儲與內(nèi)存技術的協(xié)同優(yōu)化,助力技術進步并保持市場領先地位。
Prasad Alluri擁有豐富的技術與管理經(jīng)驗,曾在英特爾、摩托羅拉等公司擔任要職。在美光的五年中,他主導了多項戰(zhàn)略項目,特別是在AI數(shù)據(jù)中心和存儲技術方面的布局。Alluri指出,“AI的迅速發(fā)展加速了存儲技術的迭代,從智能手機的AI應用到自動駕駛,存儲和內(nèi)存技術正成為推動行業(yè)創(chuàng)新的關鍵力量?!?/p>
AI應用創(chuàng)新對存儲技術帶來哪些需求?
隨著AI技術在各個領域的廣泛應用,存儲技術的角色也在發(fā)生顯著變化。它不再僅僅是容量和速度的提供者,而是逐漸成為系統(tǒng)架構深度優(yōu)化的重要組成部分。這一變革不僅為AI應用提供了更高效的計算支持,還推動了存儲行業(yè)的技術創(chuàng)新,尤其在應對AI對存儲系統(tǒng)提出的新需求方面表現(xiàn)突出。
在傳統(tǒng)的計算架構中,存儲設備和計算單元(如CPU或GPU)通常是分開的。存儲設備的主要功能是為計算單元提供數(shù)據(jù),二者之間通過存儲器接口進行通信。然而,隨著AI技術的快速崛起,特別是在深度學習、大規(guī)模模型訓練等領域,這種獨立運作的模式逐漸暴露出局限性。AI應用對數(shù)據(jù)處理的需求遠遠超過傳統(tǒng)架構所能承載的上限。AI訓練和推理需要處理龐大且復雜的數(shù)據(jù)集,單純依賴存儲設備提供數(shù)據(jù)已經(jīng)無法滿足其對效率和速度的高要求。
Prasad Alluri對與非網(wǎng)記者表示,AI不僅需要更大的存儲容量,還要求存儲設備和計算單元之間的協(xié)同優(yōu)化,以加速數(shù)據(jù)傳輸、降低延遲、提高數(shù)據(jù)處理效率。對于AI模型訓練,尤其是復雜的深度學習模型,如何快速將存儲中的數(shù)據(jù)傳輸?shù)接嬎銌卧?,成為提升整體AI性能的關鍵所在。
為了應對AI對存儲和計算協(xié)同工作模式的需求,存儲廠商開始力推CXL(Compute Express Link)技術。這項技術旨在增強存儲設備與計算單元之間的互操作性,允許多個系統(tǒng)節(jié)點共享內(nèi)存資源。這種內(nèi)存擴展功能在AI模型的訓練過程中,尤其是在多GPU系統(tǒng)中,能大幅提高數(shù)據(jù)傳輸?shù)耐掏铝?,?yōu)化AI計算的整體性能。對于AI模型訓練來說,這意味著更快的數(shù)據(jù)訪問速度、更低的延遲,以及更高效的計算能力。特別是在需要高效處理大量數(shù)據(jù)的任務中,如圖像識別、語音處理等,CXL技術為數(shù)據(jù)傳輸瓶頸提供了有效解決方案,極大提高了存儲和計算的協(xié)同性。
隨著AI技術的深入發(fā)展,PC和數(shù)據(jù)中心產(chǎn)業(yè)都隨之發(fā)生了巨大的變化。其中AI PC不僅需要具備傳統(tǒng)PC的功能,還需要處理大量AI推理和訓練任務。因此,其存儲需求與傳統(tǒng)PC有很大不同。微軟針對AI PC提出的基準硬件要求是40 TOPS的NPU、16GB內(nèi)存和256GB存儲容量,這些配置只是滿足最低性能的基礎要求。
在AI PC中,LPDDR5X和LPCAMM2內(nèi)存模塊的設計實現(xiàn)了顯著的能效提升。LPCAMM2內(nèi)存模塊通過整合多個SODIMM模塊為單一模塊的方式,不僅節(jié)省了空間,還顯著降低了功耗。這種集成方案使LPCAMM2在保持高性能的同時大幅減少了能耗,成為了下一代AI和PC應用的理想選擇。
Alluri指出,隨著AI應用的復雜度不斷增加,未來的AI PC將需要更高規(guī)格的存儲和內(nèi)存配置。例如,美光建議為AI PC配置24GB至32GB的DRAM,并搭載高性能的SSD存儲設備,如美光3500 SSD。這款存儲產(chǎn)品通過啟發(fā)式算法,能夠根據(jù)不同的工作負載動態(tài)調節(jié)能耗,在功耗最低的情況下提供高效的吞吐量。這使得美光在AI計算中的存儲解決方案更具優(yōu)勢,并為未來低功耗高性能計算奠定了技術基礎。通過優(yōu)化存儲性能,AI PC能夠在執(zhí)行高強度AI推理任務時提供流暢的使用體驗,而不會顯著增加功耗。這種優(yōu)化方向預示著未來的AI PC將在高性能和低功耗之間取得良好的平衡。
在數(shù)據(jù)中心領域,AI模型訓練的復雜度和數(shù)據(jù)量持續(xù)攀升,這種趨勢推動了存儲容量需求的爆發(fā)式增長。美光通過高密度DDR5內(nèi)存以及創(chuàng)新的CXL內(nèi)存和SSD等解決方案,推動了GPU和AI加速器的數(shù)據(jù)處理性能大幅提升。
AI模型的訓練通常需要大量的計算資源和海量數(shù)據(jù),這對數(shù)據(jù)中心的存儲設備提出了更高的要求。Alluri在采訪中解釋了AI數(shù)據(jù)中心的兩大核心存儲需求:一是用于存儲海量訓練數(shù)據(jù)的“數(shù)據(jù)湖”;二是靠近GPU集群的高性能存儲池,專門用于高效傳輸訓練數(shù)據(jù)到計算單元。
數(shù)據(jù)湖是AI模型訓練的重要基礎,特別是對于像GPT-4這樣的大規(guī)模語言模型,模型訓練往往需要消耗互聯(lián)網(wǎng)上大量的數(shù)據(jù)。因此,數(shù)據(jù)湖的存儲容量和數(shù)據(jù)管理能力至關重要。傳統(tǒng)的存儲設備,如硬盤驅動器(HDD),由于其相對較慢的讀寫速度和隨機存取性能,已經(jīng)無法滿足AI模型訓練的需求。為了應對這些挑戰(zhàn),美光推出了6500 ION系列SSD,專為AI數(shù)據(jù)中心設計。這款產(chǎn)品不僅提供了大容量的存儲,還通過能效優(yōu)化減少了物理空間和功耗的需求,使得AI數(shù)據(jù)中心能夠更高效地處理海量數(shù)據(jù),降低運行成本。
除了數(shù)據(jù)湖,AI模型的訓練還需要快速將數(shù)據(jù)傳輸給GPU進行計算。因此,靠近GPU的高性能存儲池變得尤為重要。在這種應用場景中,存儲的隨機性能決定了模型訓練的效率。Alluri特別提到,美光的9550 SSD針對隨機讀取進行了優(yōu)化,其讀取速率達到了3,300 KIOPS,遠超行業(yè)標準。這一性能提升對于處理圖神經(jīng)網(wǎng)絡(GNN)等復雜AI模型尤為重要,因為這些模型訓練的數(shù)據(jù)訪問模式是高度隨機的。通過9550 SSD的優(yōu)化,GNN訓練效率提升了約33%,大幅減少了數(shù)據(jù)傳輸?shù)钠款i。
AI數(shù)據(jù)中心在追求高性能的同時,還必須考慮能效問題。AI模型訓練是高能耗的任務,特別是處理海量數(shù)據(jù)時,能源消耗會顯著增加。美光在開發(fā)9550 SSD時,除了注重提升性能,還在能效優(yōu)化方面進行了深入研究。與競爭對手相比,9550 SSD在相同負載下的能效表現(xiàn)更加出色。在圖神經(jīng)網(wǎng)絡(GNN)等應用中,9550 SSD的能效比競品高出29%。此外,在NVIDIA的Magnum IO GPUDirect Storage解決方案中,9550 SSD每傳輸1TB數(shù)據(jù)的能耗減少了81%。在MLPerf基準測試中,9550 SSD的能耗降低了35%,而整個系統(tǒng)的總能耗也減少了13%。這些數(shù)據(jù)表明,美光在提升存儲性能的同時,也通過能效優(yōu)化為AI數(shù)據(jù)中心提供了更具可持續(xù)性的解決方案。
美光的技術創(chuàng)新不僅限于硬件層面的突破,還通過啟發(fā)式算法優(yōu)化存儲設備的能效和性能,特別是在AI數(shù)據(jù)中心中。Prasad Alluri多次提到,隨著AI工作負載的動態(tài)性增強,存儲系統(tǒng)需要在高性能和低功耗之間實現(xiàn)靈活切換。美光通過存儲器件的智能調控技術,使其在AI數(shù)據(jù)中心中的能效表現(xiàn)顯著提升,滿足了未來AI應用對存儲的苛刻要求。
美光如何應對汽車AI需求的挑戰(zhàn)?
除了PC和數(shù)據(jù)中心,AI在汽車行業(yè)也推動了前所未有的轉型,特別是自動駕駛技術也為車載存儲帶來新的需求和挑戰(zhàn)。隨著車輛功能的日益復雜,尤其是智能網(wǎng)聯(lián)汽車和自動駕駛的發(fā)展,存儲需求呈現(xiàn)出爆炸式增長。
根據(jù)美光發(fā)布的白皮書,到2025年,每輛汽車預計將搭載16GB DRAM和204GB NAND,這將分別比2021年水平提高三倍和四倍。汽車存儲市場規(guī)模也將從2021年的40億美元增長至2025年的100億美元,年復合增長率達到28%。
Alluri對與非網(wǎng)記者指出,自動駕駛技術的發(fā)展是推動這一增長的主要動力。車輛正在從分散架構向區(qū)域集中架構轉變,這種轉變帶來了對集中存儲和處理的需求。例如,區(qū)域架構能夠支持更為集中化的計算和控制系統(tǒng),但也要求存儲系統(tǒng)具備更高的吞吐量、更低的延遲以及強大的安全性和耐久性。
與傳統(tǒng)計算設備不同,汽車存儲必須在極端的環(huán)境中長時間穩(wěn)定工作。Alluri特別提到:“汽車設計要求存儲設備能夠承受高振動、極端溫度和粉塵等挑戰(zhàn),并且保持高性能運作,通常長達十年?!?這種耐久性要求使得車載存儲解決方案與消費電子和數(shù)據(jù)中心產(chǎn)品有顯著不同。
Alluri指出,虛擬化技術將成為汽車存儲領域的一個重要趨勢。通過將不同類型的存儲需求劃分到不同的命名空間中,汽車制造商可以更好地管理和保護車輛中的關鍵數(shù)據(jù)。此外,隨著區(qū)域架構的推廣,集中式存儲將進一步取代傳統(tǒng)的分散式存儲,這將為智能汽車提供更強大的數(shù)據(jù)處理能力和更低的系統(tǒng)復雜性。Alluri還強調,安全性將是未來汽車存儲發(fā)展的關鍵要素。隨著聯(lián)網(wǎng)功能的普及,車輛面臨的網(wǎng)絡攻擊風險日益增加,因此存儲系統(tǒng)需要具備強大的安全機制,以確保在自動駕駛和聯(lián)網(wǎng)操作中的安全性。
應對這些挑戰(zhàn),美光推出了4150AT SSD,這是專門為汽車市場開發(fā)的高性能存儲解決方案。Alluri解釋道:“我們在4150AT SSD中引入了單根I/O虛擬化和多命名空間功能,使其可以像多個獨立的SSD一樣工作,從而支持更為復雜的區(qū)域架構?!?/p>
這種虛擬化技術的關鍵在于,它能夠通過多個命名空間劃分不同的數(shù)據(jù)需求。例如,Alluri指出,4150AT SSD可以將一個命名空間專門用于安全應用,確保聯(lián)網(wǎng)車輛在受到網(wǎng)絡攻擊時,關鍵的安全功能不會受到影響。這種設計尤其適合自動駕駛車輛,因為在這些車輛中,網(wǎng)絡安全至關重要,虛擬化技術確保了在面對潛在的攻擊時,車輛操作依然安全可靠。
除此之外,4150AT SSD還通過優(yōu)化功耗和耐久性,提升了其在車載存儲中的適應性。Alluri表示:“在不增加功耗的情況下提升性能,是車載存儲面臨的關鍵挑戰(zhàn)之一?!?4150AT SSD在這一點上取得了顯著進展,同時支持多命名空間的虛擬化架構使其能夠滿足未來車輛架構的需求。
Alluri還對與非網(wǎng)記者透露,美光正與一些全球領先的汽車制造商合作推進4150AT SSD的資格認證。由于汽車行業(yè)對產(chǎn)品認證的要求非常嚴格,尤其是對于存儲解決方案的安全性和耐久性,美光在與一級汽車制造商的合作中需要經(jīng)歷長時間的測試和驗證過程。雖然合作的細節(jié)尚未公開,但Alluri強調,美光的4150AT SSD憑借其獨特的虛擬化技術和高性能,已經(jīng)為未來的汽車架構奠定了堅實基礎。隨著認證流程的推進,未來這款產(chǎn)品有望在更多的汽車品牌和車型中得到應用。
除了4150AT SSD,美光還在車載內(nèi)存和存儲領域推出了LPDDR5X內(nèi)存和UFS 4.0存儲解決方案。Alluri指出,這兩款產(chǎn)品同樣是為應對智能網(wǎng)聯(lián)汽車和自動駕駛系統(tǒng)而設計的。LPDDR5X內(nèi)存具備出色的能效和高性能,能夠支持自動駕駛系統(tǒng)中對高速數(shù)據(jù)處理的需求。同時,UFS 4.0存儲的吞吐量比UFS 3.1提高了兩倍,能夠處理更為復雜的車載應用,如車載娛樂系統(tǒng)和高級駕駛輔助系統(tǒng)(ADAS)中的大量數(shù)據(jù)流。
隨著車輛日益智能化,尤其是L2+及更高級別自動駕駛技術的普及,存儲系統(tǒng)需要實時處理大量數(shù)據(jù)。美光的LPDDR5X和UFS 4.0解決方案不僅提供了更高的存儲容量和數(shù)據(jù)處理能力,還在功耗和耐久性方面進行了優(yōu)化,使其能夠在嚴苛的汽車環(huán)境中長時間穩(wěn)定運行。
展望美光的存儲技術方向?
總的來看,美光在存儲技術領域的持續(xù)創(chuàng)新鞏固了其在AI、高性能計算和數(shù)據(jù)中心等領域的領先地位。通過不斷提升存儲密度、優(yōu)化能效和加速速度,美光為AI數(shù)據(jù)中心和高性能計算應用提供了更為高效的解決方案,助力企業(yè)應對復雜的計算需求。
在存儲技術方面,美光在QLC(四層單元)技術和NAND層數(shù)增加上也取得了顯著進展。QLC技術通過增加每個存儲單元的容量,提升了存儲效率,尤其適用于PC和AI工作負載等數(shù)據(jù)密集型應用。美光在3D NAND技術方面的進展尤為突出,推出了具有276層的3D NAND存儲器,這一突破性技術為市場帶來了前所未有的存儲性能。該3D NAND的傳輸速率高達3.6GB/s,閃存接口速度達到3600MT/s,領先于目前業(yè)界產(chǎn)品約50%。這種技術不僅顯著提升了存儲速度和效率,還為AI、機器學習等數(shù)據(jù)密集型應用提供了強大的支持,特別是在云計算和汽車領域中,能夠實現(xiàn)實時的數(shù)據(jù)處理和快速響應。
在PCIe 6.0 SSD技術上,美光的PCIe 6.0 SSD在順序讀取速率上達到了26GB/s,相較于上一代PCIe 5.0 SSD產(chǎn)品的14GB/s提高了85.7%,這使得其在AI、高性能計算(HPC)和數(shù)據(jù)中心等需要高帶寬和低延遲的應用場景中表現(xiàn)出色。美光的PCIe 6.0 SSD還支持GPU和AI加速器之間的高速數(shù)據(jù)傳輸,進一步推動了AI工作負載的高效處理。
未來,美光將在NAND技術的橫向擴展方面進行更多探索,進一步優(yōu)化存儲器件的容量密度,不僅在存儲層數(shù)上繼續(xù)突破,還將通過多種創(chuàng)新路徑實現(xiàn)更高效的存儲解決方案。Alluri強調,美光將繼續(xù)推動存儲技術與計算系統(tǒng)的協(xié)同優(yōu)化,進一步提升整體效率,確保其在全球數(shù)字化轉型和技術創(chuàng)新中保持競爭優(yōu)勢。