TDP 變化對室內散熱技術的影響
AI芯片更高的熱設計功耗是推動液冷技術普及的關鍵因素。隨著人工智能、云計算、大數據以及區(qū)塊鏈等技術的快速發(fā)展,數據資源的存儲、計算和應用需求迅速擴張,特別是像ChatGPT這樣的AI算力大功率應用場景加速落地,這導致AI芯片TDP(熱設計功耗:處理器達到最大負荷時釋放的熱量)不斷增加,2022年Intel第四代服務器處理器單CPU功耗已突破350W,英偉達單GPU芯片功耗突破700W,帶來了更高的散熱需求。
同時,服務器制造商正在將更多的CPU和GPU裝入每個機架單元(U)。由于機架內有多個高性能服務器,即使有密封裝置,向機架輸送冷風的空調系統(tǒng)也無法提供足夠的冷卻能力。此外,在處理密集型應用中,分散計算的策略并不可行,因為即使是在單個服務器中,也存在物理距離帶來的延遲挑戰(zhàn)。因此,組件被壓縮到單個設備內,從而形成高熱密集的1U服務器,將機架熱密度提高到前所未有的水平。
前幾年,風冷系統(tǒng)通過讓冷源更靠近熱源,或者密封冷通道/熱通道的方案,來適應更高的熱密度散熱需求。但是,隨著機架密度升至20kW以上,傳統(tǒng)風冷技術在面對高熱密度場景時顯現出散熱效率瓶頸,無法跟上計算效率的提升。液冷技術以其高能效和高熱密度散熱特點,成為解決散熱壓力和節(jié)能挑戰(zhàn)的有效手段。液冷技術相較于風冷技術,在低能耗、高散熱、低噪音和低總擁有成本(TCO) 等方面具有明顯優(yōu)勢。
液體的冷卻能力是空氣的1000至3000倍,導熱能力是空氣的25倍,這使得液冷技術特別適合需要大幅度提高計算能力、能源效率和部署密度的場景。想要部署密度極高機架(60kW以上)的設施在是否使用液冷方面幾乎沒有選擇余地。無論如何配置或優(yōu)化系統(tǒng),風冷都無法提供維持IT系統(tǒng)可靠性所需的散熱能力。在邊緣計算和核心數據中心都是如此。因此,當芯片的熱設計功耗(TDP)超過700-800W時,液冷是解決高密散熱的必要有效措施。
TDP 變化對室外冷源技術的影響
液冷系統(tǒng)的換熱主要分為一次側換熱系統(tǒng)和二次側換熱系統(tǒng)兩個部分,二次側系統(tǒng)負責將電子設備高熱流密度元件的發(fā)熱量帶出機房,送抵與外循環(huán)系統(tǒng)做熱交換的冷量分配單元的冷卻介質循環(huán)系統(tǒng)。主要由冷量分配單元( 二次側循環(huán)通道部分)、液冷設備、冷卻介質供回歧管、循環(huán)管路、連接管路等構成;一次側換熱系統(tǒng)負責將二次側冷卻環(huán)路送抵的機房內元件產生的熱量排至室外大氣環(huán)境或通過熱回收系統(tǒng)回收利用。一次側冷卻環(huán)路由冷量分配單元( 一次側循環(huán)通道部分)、冷卻水循環(huán)管路、水泵、冷源等構成。
在室外側循環(huán)中,低溫水在冷量分配單元(CDU)中吸收二次側冷卻液攜帶的大量熱量變?yōu)楦邷厮?,由循環(huán)水泵輸入到室外冷散熱設備中。在室外散熱設備中,高溫水與大氣進行熱交換,釋放熱量,變成低溫水再由循環(huán)水泵輸送進CDU中與冷卻液進行熱交換,完成室外側循環(huán)。
在一次側循環(huán)中熱量轉移主要通過水溫升降實現,根據不同水溫,可分為完全自然冷卻和機械冷卻兩種形式。自然冷卻系統(tǒng)主要有開式冷卻塔、閉式冷卻塔和干冷器等類型,可提供30℃以上冷卻水;機械制冷系統(tǒng)主要包含風冷冷凍水系統(tǒng)和水冷冷凍水系統(tǒng),可提供溫度較低的冷凍水。隨著TDP的不斷提高,要保證芯片側的換熱效果需要降低二次側管路的冷卻液溫度,進而需要更低的一次側水溫。
當TDP在900~1500W范圍或以上時,對液冷一次側進水溫度的需求越來越低,此時自然冷卻提供的30℃以上的冷卻水難以滿足要求,因此就需要機械制冷系統(tǒng)提供溫度更低的冷凍水。即室外冷源由冷卻塔逐步過渡到冷水機組。
節(jié)選自《智算中心液冷技術發(fā)展報告(2024 版)》
該報告深入分析液冷技術在智算中心的應用現狀、技術發(fā)展和未來趨勢。旨在為智算中心的規(guī)劃和建設提供參考,幫助行業(yè)同仁更好地理解和應用液冷技術,推動AI行業(yè)的可持續(xù)發(fā)展。