近日,ChatGPT官網(wǎng)一度停止Plus付費項目的購買,原因是“需求量過大”。業(yè)內(nèi)推測這是由于ChatGPT背后的算力資源出現(xiàn)明顯缺口,導(dǎo)致OpenAI不得不暫時踩下用戶增長的“剎車”。盡管截止本文發(fā)稿時這一服務(wù)項目已恢復(fù),但算力告急確是現(xiàn)實情況。
算力催生數(shù)據(jù)中心規(guī)模擴(kuò)張,高效變革在即
類ChatGPT大模型迅速引爆各類AI應(yīng)用需求的同時,也對算力提出巨大需求,同時帶來了嚴(yán)峻的能源問題,如何實現(xiàn)可持續(xù)的算力增長成為未來發(fā)展的關(guān)鍵。
以ChatGPT為例,業(yè)內(nèi)對其電量需求進(jìn)行過相關(guān)測算。根據(jù)OpenAI公開信息披露,ChatGPT訓(xùn)練階段總算力消耗約為3640PF-days(即以1PetaFLOP/s的效率運行3640天),對應(yīng)數(shù)據(jù)中心裝機(jī)功率需求2.68萬千瓦。據(jù)Similarweb數(shù)據(jù),截至今年1月,ChatGPT日活約1300萬人,每人平均1000字左右的問題,對應(yīng)運行階段每日算力消耗約為3000PF-days,對應(yīng)數(shù)據(jù)中心裝機(jī)功率需求66.3萬千瓦,對應(yīng)全年用電量需求約 22 億千瓦時。
隨著模型迭代、參數(shù)量的擴(kuò)大,以及日活人數(shù)的擴(kuò)大,相關(guān)算力需求將成倍增加,也將進(jìn)一步推升數(shù)據(jù)中心的規(guī)模擴(kuò)張趨勢。
從我國數(shù)據(jù)中心的發(fā)展和建設(shè)方向來看,工業(yè)和信息化部、發(fā)展改革委等七部門聯(lián)合發(fā)布《信息通信行業(yè)綠色低碳發(fā)展行動計劃 (2022-2025 年)》(以下簡稱《行動計劃》),2025 年,全國新建大型、超大型數(shù)據(jù)中心電能利用效率(PUE)降到 1.3 以下,改建核心機(jī)房PUE降到1.5以下。
另外,根據(jù)“東數(shù)西算”工程要求,內(nèi)蒙古、貴州、甘肅、寧夏四處集群樞紐設(shè)立的數(shù)據(jù)中心集群PUE應(yīng)控制在1.2以內(nèi);京津冀、長三角、粵港澳大灣區(qū)、成渝四處集群樞紐設(shè)立的數(shù)據(jù)中心集群PUE則要控制在1.25以下。
除了政策層面的嚴(yán)苛要求,技術(shù)層面的變革也迫在眉睫:
當(dāng)前,芯片功耗與服務(wù)器功耗逐步上升,特別是人工智能需求的通用 GPU 功耗急劇增加,使得單機(jī)柜功率密度正不斷增大。根據(jù)《2021-2022 年度中國數(shù)據(jù)中心基礎(chǔ)設(shè)施產(chǎn)品市場總報告》,2021 年我國單機(jī)柜功率在10kW以上的數(shù)據(jù)中心市場規(guī)模增速超過10%,其中 30kW以上增速達(dá)31%。
如果采用風(fēng)冷散熱方式,通常要把單機(jī)柜功率控制在12kW以內(nèi),以確保散熱系統(tǒng)能夠為IT設(shè)備提供合適的工作溫度。但是,隨著服務(wù)器單位功耗不斷增大,單機(jī)柜功率15kW基本成為空氣對流散熱能力的天花板,一旦超越這一數(shù)值,處于高溫狀態(tài)工作的 IT 設(shè)備將出現(xiàn)運行不穩(wěn)、加劇老化甚至頻繁宕機(jī)等后果。
在政策與技術(shù)的雙重驅(qū)動下,高效低碳的液冷技術(shù)不僅是散熱方式的改變,更有可能變革整個數(shù)據(jù)中心生態(tài)。
AI服務(wù)器液冷滲透率將更快、更高
什么是PUE?PUE(Power Usage Effectiveness)是用于測量數(shù)據(jù)中心能源效率的指標(biāo),是用數(shù)據(jù)中心總能耗除以IT設(shè)備能耗得來??偰芎陌琁T設(shè)備能耗和制冷、配電等系統(tǒng)能耗,PUE數(shù)值越靠近1說明非IT設(shè)備的能耗越少,能效水平越高。
當(dāng)前,在PUE目標(biāo)不斷降低,且CPU功耗逐年上升的背景下,業(yè)內(nèi)正在大力推行采用液冷方案來降低服務(wù)器整機(jī)功耗和數(shù)據(jù)中心PUE。
所謂液冷,通俗來講就是通過液體代替空氣,把CPU、內(nèi)存等IT發(fā)熱器件產(chǎn)生的熱量帶走,就好似給服務(wù)器局部冷卻、整體“淋浴”甚至全部浸沒。 就液冷技術(shù)分類而言,根據(jù)液體冷媒和發(fā)熱源的接觸方式可分為——冷板式(間接接觸)、噴淋式(直接接觸)、浸沒式(直接接觸)。相較于風(fēng)冷,液冷的優(yōu)勢主要體現(xiàn)在以下方面:
第一,可以帶走更多熱量。相較于空氣,水的比熱容高達(dá)4.2x10的三次方焦/千克·攝氏度,導(dǎo)熱效率十分高,因此無論是冷板式還是浸沒式的液冷,都能帶走更多的熱量。
第二,噪音品質(zhì)更好。作為生產(chǎn)噪音的“專業(yè)戶”,數(shù)據(jù)中心機(jī)房的噪音往往成為擾民的存在,在同等條件下,液冷的噪音要比風(fēng)冷小很多。
第三,耗電節(jié)能更省。冷卻效率提高的同時,整體循環(huán)效率也在變高,這樣產(chǎn)品級的電消耗,實際上節(jié)約了整個空調(diào)系統(tǒng)和循環(huán)系統(tǒng)的電耗。
第四,物理占用空間小。受限于風(fēng)冷散熱系統(tǒng)的限制,迎風(fēng)面積總是有限的,如果想要實現(xiàn)更高的密度,就需要在單位體積內(nèi)實現(xiàn)更高的冷卻容量,這也是液冷才可以實現(xiàn)的。
寧暢首席技術(shù)官趙雷認(rèn)為,風(fēng)冷技術(shù)的極限值基本是在300W-350W之間,目前數(shù)據(jù)中心已經(jīng)慢慢觸碰到這個極限值,而隨著CPU功耗的增長,推進(jìn)液冷技術(shù)發(fā)展已經(jīng)成為行業(yè)發(fā)展的重要推動力。
新華三服務(wù)器產(chǎn)品線系統(tǒng)部總監(jiān)鄭國良表示,“東數(shù)西算”項目正式落地后,對數(shù)據(jù)中心PUE的要求非常明確,數(shù)據(jù)中心對于液冷技術(shù)需求的迫切性都提到比較高的位置。因此對于當(dāng)前和下一代平臺,包括浸沒式液冷都會加大投入和加快發(fā)布的進(jìn)度。
針對當(dāng)前火爆的AI服務(wù)器市場,浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥表示,“短期內(nèi),AIGC對數(shù)據(jù)中心訓(xùn)練需求是爆炸式的增長。長遠(yuǎn)來看,推理市場也會是爆炸性的增長”。
相比于通用服務(wù)器,AI服務(wù)器功耗更高,單臺服務(wù)器約10千瓦?!艾F(xiàn)在10千瓦的服務(wù)器是6U高,單U要解決1.5千瓦到2千瓦的散熱量,如果單純用風(fēng)冷技術(shù),需要把服務(wù)器做成10U高,幾乎不可能實現(xiàn)”, 趙帥認(rèn)為,“液冷技術(shù)在AI服務(wù)器的滲透率會更快、更高?!?/p>
液冷大規(guī)模部署面臨重重挑戰(zhàn)
盡管推動數(shù)據(jù)中心向液冷發(fā)展已經(jīng)成為行業(yè)共識,但是,液冷技術(shù)從小規(guī)模驗證走向大規(guī)模量產(chǎn)仍面臨挑戰(zhàn):一是缺乏技術(shù)行業(yè)標(biāo)準(zhǔn)、規(guī)范等指引,產(chǎn)業(yè)協(xié)同度不高,難以標(biāo)準(zhǔn)化適配和部署;二是由于缺乏長周期、大規(guī)模部署驗證,液冷數(shù)據(jù)中心的可靠性問題存在一定爭議,用戶有使用疑慮;三是產(chǎn)業(yè)鏈協(xié)同性差,缺乏具備高度整合能力的企業(yè),資源配置效率低、浪費大,產(chǎn)業(yè)發(fā)展速度受阻。
針對上述挑戰(zhàn),業(yè)界頭部企業(yè)已經(jīng)開始了技術(shù)創(chuàng)新,并通過產(chǎn)業(yè)合作推動相關(guān)產(chǎn)品標(biāo)準(zhǔn)、驗證標(biāo)準(zhǔn)的建立。
例如針對漏液等安全方面的顧慮,浪潮信息首創(chuàng)了液環(huán)式真空 CDU,可實現(xiàn)僅依靠真空泵通過不同傳感器控制幾個腔室的功能切換即可實現(xiàn)流體的循環(huán)流動,水泵則僅起到輔助提高系統(tǒng)壓差作用。這項技術(shù)創(chuàng)新,突破了業(yè)界目前負(fù)壓液冷循環(huán)系統(tǒng)必須同時依靠真空泵和水泵,才能實現(xiàn)液體循環(huán)流動的“定律”,在降低技術(shù)成本的同時,也實現(xiàn)了技術(shù)極簡化,進(jìn)一步推動冷板式液冷技術(shù)的普及。
針對用戶對液冷產(chǎn)品規(guī)模化部署的疑慮,浪潮信息與京東云聯(lián)合發(fā)布了天樞(ORS3000S)液 冷整機(jī)柜服務(wù)器,它支持冷板式液冷,散熱效率提升50%;滿足多節(jié)點供電需求的同時,通過電源均衡優(yōu)化技術(shù),可以使電源一直工作在最高效率,相比于分布式電源模式,整體效率提升10%;支持一體化交付,高效運維部署,交付速度提高5-10倍。
阿里云約從2016年開始大規(guī)模部署液冷技術(shù)。英特爾與阿里巴巴圍繞浸入式液冷所面臨的材料兼容性、電氣信號完整性、芯片散熱特性、服務(wù)器系統(tǒng)散熱特性、服務(wù)器及機(jī)柜結(jié)構(gòu)設(shè)計等課題,展開了深入合作,從處理器定制和服務(wù)器系統(tǒng)開發(fā)與優(yōu)化著手,突破芯片功耗墻功耗和冷卻兩大影響算力提升的關(guān)鍵問題,使得液冷服務(wù)器在阿里巴巴數(shù)據(jù)中心成功大規(guī)模部署,在2018年建成首個互聯(lián)網(wǎng)液冷數(shù)據(jù)中心,在2020年投產(chǎn)首個5A級綠色液冷數(shù)據(jù)中心,每年可以節(jié)省電能至少達(dá)千萬級的同時,使得服務(wù)器系統(tǒng)的故障率相比風(fēng)冷服務(wù)器下降約53%,有效降低了數(shù)據(jù)中心總體擁有成本。
寧暢也在與英特爾的合作中,進(jìn)一步改善了冷板式液冷設(shè)計中的漏液檢測、材料兼容性、生產(chǎn)工藝等核心技術(shù)要點,并在浸沒式液冷中的安裝運維、液體揮發(fā)與滲漏、材料兼容性等難點問題上實現(xiàn)了突破。
不過,在數(shù)據(jù)中心服務(wù)器實施液冷技術(shù)畢竟是系統(tǒng)級工程,需要由點到面、循序漸進(jìn)地推進(jìn)。僅以高速I/O連接器為例,當(dāng)整個傳輸鏈路置于液冷材料環(huán)境時,由于其周圍介電常數(shù)的變化,傳輸鏈路對應(yīng)的高頻參數(shù), 譬如阻抗、插損等會受到影響并在一定程度上變差,因此還需要專門在冷卻液環(huán)境中進(jìn)行信號完整性測試,便于校準(zhǔn)由于環(huán)境引入的偏差,使系統(tǒng)信號裕量符合預(yù)期。
2025年,液冷滲透率有望超過20%
國內(nèi)液冷產(chǎn)業(yè)總體發(fā)展現(xiàn)狀如何?趙帥表示,液冷技術(shù)本身,及其加工、焊接、產(chǎn)品工藝等已比較成熟。現(xiàn)在迫在眉睫的是打通產(chǎn)業(yè)鏈的工作,形成可批量化、可復(fù)制化、可規(guī)?;男?yīng)。
浪潮信息數(shù)據(jù)中心產(chǎn)品部副總經(jīng)理李金波表示,推進(jìn)液冷產(chǎn)業(yè)化的關(guān)鍵是建立標(biāo)準(zhǔn),對于液冷部件來說,主要是兩類:一類是設(shè)計標(biāo)準(zhǔn),要讓所有研究團(tuán)隊通過公認(rèn)的標(biāo)準(zhǔn),慢慢形成標(biāo)準(zhǔn)的技術(shù)體系;一類是測試標(biāo)準(zhǔn),要把原來的設(shè)計準(zhǔn)則在測試環(huán)節(jié)中一一地實現(xiàn)、被行業(yè)所認(rèn)可,這時整體的標(biāo)準(zhǔn)、規(guī)范才能打通。
“中國的液冷發(fā)展會是逐步迭代的過程,到2022、2023年液冷滲透率可能只在5%左右,但是到2025年,我們認(rèn)為會超過20%”,趙帥表示。
總體而言,我國液冷當(dāng)前的滲透率還較低。從整體現(xiàn)狀來看,主要是一些創(chuàng)新型的數(shù)據(jù)中心在積極應(yīng)用,東部地區(qū)數(shù)據(jù)中心整體PUE要求較高,液冷使用相對多。此外,不同行業(yè)客戶對于液冷產(chǎn)品與方案具有多樣化需求。
“在國內(nèi)當(dāng)前的應(yīng)用環(huán)境下,沒有最好的液冷,只有最適合用的液冷,這是我們的一個核心理念”, 趙帥談到。
寫在最后
如何高效建設(shè)液冷數(shù)據(jù)中心?這是全產(chǎn)業(yè)都在探究的方向。當(dāng)前不僅需要將各類服務(wù)器全面適配液冷方案,更需要在打通算力層面的基礎(chǔ)上,提升液冷的產(chǎn)業(yè)化能力。畢竟液冷仍處于商業(yè)化的初級階段,產(chǎn)業(yè)提速的核心在于標(biāo)準(zhǔn)化建設(shè)、產(chǎn)業(yè)鏈整合,從產(chǎn)品技術(shù)、生產(chǎn)組織、品質(zhì)標(biāo)準(zhǔn)等產(chǎn)業(yè)要素入手,才能讓液冷技術(shù)走向更多數(shù)據(jù)中心。