“我們需要的HBM(高帶寬存儲器)數(shù)量非常龐大,目前正在與三星、SK海力士和美光洽談,我們已經收到這三家公司的產品?!闭f出這句話的,是英偉達的CEO黃仁勛。依靠GPU,英偉達如日中天,這讓全球排名前三的存儲芯片廠商爭相拋出橄欖枝。
當前,生成式AI的浪潮洶涌而至,讓GPU大施拳腳,更是帶動整個半導體產業(yè)鏈掀起了更新潮:它成為了存儲市場的“救命稻草”,使其創(chuàng)下一個季度內扭虧為盈的壯舉;CPU與GPU的深度融合,成為當下各家產品突破性能極限的殺手锏,英偉達、AMD、英特爾三家龍頭企業(yè)爭相發(fā)布協(xié)同解決方案,搶占市場;GPU的不斷發(fā)展還激活了半導體設備、散熱技術,以及后道封裝技術等方方面面的創(chuàng)新活力,一項項全新的技術持續(xù)涌現(xiàn)。
存儲:扭虧為盈,下一代產品需求告急
自2021年以來,存儲芯片產業(yè)進入長達近兩年的下行周期,這也導致存儲芯片廠商的利潤持續(xù)走低,甚至一度陷入虧損狀態(tài)。例如,2023年全年,三星綜合營業(yè)利潤為6.6萬億韓元,較上年同期下降84.86%。SK海力士則是累計營業(yè)虧損7.7303萬億韓元,凈虧損9.1375萬億韓元。一直到2023年第四季度,兩大存儲廠商才逐漸恢復盈利能力。這個扭虧為盈的關鍵點正是GPU的爆發(fā)式增長。
GPU在進行大量數(shù)據(jù)處理時,特別是在高性能計算、人工智能和圖形處理等領域,對存儲帶寬和容量的需求極高。GDDR(一種用于圖形處理器和高性能計算模塊的顯存類型)和HBM具有的高帶寬、低功耗和低延遲的特性,正是GPU所最需要的。各大存儲芯片企業(yè)紛紛開始研究這兩個存儲芯片品類。
芯謀研究企業(yè)服務部總監(jiān)王笑龍在接受《中國電子報》記者采訪時表示,為滿足GPU對高帶寬的需求,HBM技術通過堆疊內存芯片并利用硅中介層直接連接到GPU,大幅度提高了內存帶寬。隨著GPU需求的增長,HBM2、HBM2E乃至最新的HBM3等迭代版本將不斷推出,進一步提升了帶寬和容量,同時降低功耗。
在GPU市場需求引導下,各大存儲芯片企業(yè)的GDDR和HBM訂單拿到手軟。SK海力士近期表示,根據(jù)截至今年底的生產能力,目前已經完成了對2025年HBM內存產能的分配。三星也是不甘示弱,稱自身HBM訂單也已售罄,預估明年不會出現(xiàn)HBM內存供過于求的情況。美光也表示,已經基本完成了2025年的HBM內存供應談判,預計在2024年9月結束的本財年中,HBM內存將帶來數(shù)億美元的營收,而在2025財年,相關業(yè)務的銷售額預計將增加到數(shù)十億美元。
數(shù)據(jù)來源:TrendForce
產能方面,HBM廠商為滿足HBM3E內存需求,SK海力士計劃大幅增加1bnm制程DRAM內存產能。目標到今年年底將1bnm內存晶圓投片量增至9萬片,明年上半年進一步增加到14~15萬片。為此,SK海力士計劃將其位于京畿道利川市的M16內存晶圓廠升級至1bnm工藝。而三星預計到2024年底,現(xiàn)有設施將全部使用完畢。新的P4L工廠計劃于2025年完工,而15號生產線工廠將從1Y納米工藝過渡到1bnm及以上工藝。
下一代技術方面,SK海力士計劃將HBM新產品的供應周期從2年加快至1年。此外,還計劃在2025年和2026年完成HBM4(第6代)和HBM4E(第7代)的技術開發(fā)和量產。三星同樣表示,HBM4內存計劃于明年完成開發(fā),2026年實現(xiàn)量產。而美光已經開始出樣12層堆疊的HBM3E內存,預計這將成為2025年業(yè)績的重要驅動力。
據(jù)Mordor Intelligence預測,從2024年到2029年,HBM市場規(guī)模預計將從約25.2億美元激增至79.5億美元,預測期內復合年增長率高達25.86%。
半導體行業(yè)專家池憲念表示:“不只是GDDR和HBM,為了應對GPU持續(xù)飆升的存儲需求,各大企業(yè)也在探索新型的存儲介質。例如,業(yè)界已經開始探索如3D XPoint、ReRAM(電阻式隨機存取存儲器)、PCM(相變存儲)等新型非易失性存儲技術,它們有望提供接近DRAM的性能,同時保持數(shù)據(jù)持久性,適合于GPU密集型應用中的快速存儲和交換數(shù)據(jù)?!?/p>
CPU:深度融合GPU,巨頭爭相“斗法”
在前不久的臺北電腦展上,英偉達、AMD、英特爾等公司首席執(zhí)行官的演講句句都離不開GPU,“明爭暗斗”中發(fā)布了關于CPU與GPU協(xié)同的最新解決方案,性能增量一個比一個驚人,可見GPU對于CPU的提升作用。
CPU是中央處理器,負責程序控制、順序執(zhí)行等操作,是信息處理、程序運行的最終執(zhí)行單元。而GPU是圖形處理器,加入系統(tǒng)之后,GPU可以在CPU的控制下協(xié)同工作,分擔部分原本由CPU負責的工作,尤其是在圖形渲染、3D圖形加速以及大規(guī)模并行計算等需要處理大量數(shù)據(jù)的領域表現(xiàn)出色。這使得CPU可以將更多的資源用于執(zhí)行其他任務,提高了系統(tǒng)的整體性能。因此,如何促進CPU與GPU進一步協(xié)同工作,提升系統(tǒng)整體性能和效率就成為了各大CPU企業(yè)所重點關注的課題。
為此,英偉達、AMD、英特爾等領軍企業(yè)想到的第一個辦法是開發(fā)CPU與GPU的異構計算平臺。通過開發(fā)如NVLink、CCIX、CXL和Gen-Z等高速互連技術,加強CPU與GPU之間的數(shù)據(jù)傳輸速度和效率,使得兩者能更緊密、高效地協(xié)同工作。
例如,黃仁勛提出,英偉達將在2026年推出最新的Vera CPU和Rubin GPU,并組成Vera Rubin超級芯片,有望取代現(xiàn)有的Grace Hopper超級芯片。此外,Rubin平臺還將搭載新一代NVLink 6 Switch,提供高達3600 GB/s的連接速度,以及高達1600 GB/s的CX9 SuperNIC組件,確保數(shù)據(jù)傳輸?shù)母咝浴?/p>
除了建立異構計算平臺,半導體行業(yè)專家池憲念表示,還要優(yōu)化軟件與編程模型。為了解決CPU與GPU之間的通信瓶頸,企業(yè)投入資源開發(fā)了新的編程模型和庫,如CUDA、OpenCL、DirectX、Vulkan、oneAPI等,使得開發(fā)者能夠更便捷地編寫跨CPU和GPU的并行程序,充分利用兩者的計算優(yōu)勢。在某些應用場景下,企業(yè)還可以集成特定的硬件加速器(如AI加速器、網絡加速器)與CPU和GPU一起工作,以實現(xiàn)特定任務的極致加速,滿足云計算、邊緣計算、數(shù)據(jù)中心等領域的特定需求。
此外,推進系統(tǒng)架構的創(chuàng)新也是關鍵環(huán)節(jié),例如AMD推出的APU(加速處理器),將CPU與GPU集成在同一塊芯片上,實現(xiàn)了更緊密的集成和更低的延遲,為輕量級計算任務提供高效解決方案。英偉達也發(fā)明了一種新架構,將GPU與CPU相結合,兩個處理器能獨立且自主地運行。可以讓原本需要100個時間單位才能完成的任務,現(xiàn)在可能僅需1個時間單位即可完成。并且,這種架構可以實現(xiàn)高達100倍的加速計算,而功率僅增加約3倍,每瓦性能比單獨使用CPU提高25倍,成本僅上升約50%。此外,RISC-V架構也在探索包括CPU與GPU核心的一體化設計,有望在性能和能效上取得新突破。
半導體上游:不止封裝技術,設備材料均有變
對于最上游的半導體設備、散熱技術,以及后道封裝技術等方面的更新迭代來說,GPU的市場需求同樣成為了關鍵助推力。
半導體設備方面,英偉達之前發(fā)布了可以將計算光刻變得更“聰明”的新光刻技術cuLitho,以前的計算光刻依賴CPU服務器集群,而如今,cuLitho可以實現(xiàn)在500套DGX H100(包含4000顆Hopper GPU)完成與4萬顆CPU運算服務器相同的工作量,但速度快40倍,功耗低9倍??梢?,GPU加速后,生產光掩模的計算光刻工作用時可以從兩周減少到八小時。臺積電可以通過在500個DGX H100系統(tǒng)上使用cuLitho加速,將功率從35MW降至5MW,從而替代用于計算光刻的4萬臺CPU服務器。黃仁勛表示,英偉達將繼續(xù)與臺積電、ASML和Synopsys合作,將先進制程推進到2納米及更高精度制程。
在散熱技術創(chuàng)新方面,英偉達決定在新發(fā)布的GPU產品B100上采用液冷散熱方案。黃仁勛曾公開表示,液冷技術是未來散熱技術的方向,有望引領整個散熱市場迎來全面的革新。
液冷散熱技術相較于傳統(tǒng)的風冷散熱技術,具有更高的散熱效率、更低的能耗、更低的噪聲。而隨著AI算力和功耗的不斷提升,當單顆高算力芯片功率達到1000W時,現(xiàn)有散熱技術將面臨革命性的變革,而液冷方案幾乎成為必選項。
民生證券表示,AI產業(yè)快速發(fā)展,驅動液冷服務器滲透率逐步抬升。從發(fā)展趨勢來看,預計到2025年液冷服務器滲透率大約保持在20%-30%的水平。
池憲念表示,封裝技術也能夠提升GPU的各項性能,例如通過倒裝芯片封裝(FCBGA)的應用,改善關鍵部件如CPU、GPU的散熱水平,提高信號傳輸速度和電氣性能;扇出型晶圓級封裝(FOWLP)能在相同封裝尺寸內容納更多存儲芯片,提高帶寬,同時減小GPU的實際尺寸或騰出空間用于其他組件,這對于提升GPU的集成度和性能至關重要;CoWoS-L封裝技術允許在單一封裝中集成多個芯片(如GPU、HBM等),通過硅中介層實現(xiàn)高速互連,不僅提升了性能,也優(yōu)化了散熱路徑。同時,GPU制造商正探索3D封裝技術,通過堆疊多個芯片或Chiplet(小芯片)來構建系統(tǒng),這樣不僅可以增加功能,還能通過縮短信號路徑來降低功耗并提高散熱效率。
不得不說,AI驅動下,GPU的高速發(fā)展也已成為半導體產業(yè)的重要驅動力之一。
作者丨許子皓編輯丨張心怡美編丨馬利亞監(jiān)制丨連曉東