10月13日上午9點時許,蘇州超算中心一幢辦公樓頂樓發(fā)生火災,現(xiàn)場濃煙滾滾,10公里外都能看到。關于火災原因,有網(wǎng)友猜測是頂樓施工或電路問題導致設備燃燒。而根據(jù)當日午間蘇州工業(yè)園區(qū)發(fā)布的通報顯示,著火點系位于蘇州工業(yè)園區(qū)創(chuàng)意產(chǎn)業(yè)園內A2棟建筑屋頂備用冷卻塔,火災已于9時30分撲滅,未發(fā)生人員傷亡,建筑內企業(yè)數(shù)據(jù)機房未受影響。
?
圖 | 蘇州超算中心火情現(xiàn)場
圖源:微信社群
據(jù)悉,蘇州超算中心項目是依托蘇州國科數(shù)據(jù)中心Tier-IV級機房打造的超級計算平臺,該項目總投資人民幣2.1億元,計劃分兩期建設,一期投資人民幣7000萬元,已于2019年啟動,2020年1月底完成建設,2020年3月3日正式揭牌投入使用。
蘇州超算中心和我們熟知的“神威·太湖之光”、“天河”系列等國家級超算中心不同,是蘇州工業(yè)園區(qū)政府考慮到鏈路成本和效率,為科技創(chuàng)新、產(chǎn)業(yè)升級打造的“智能超算云平臺”,走的是“因地制宜”的第三類超算中心路線,主要服務于周邊的人工智能產(chǎn)業(yè)以及相關的智能制造企業(yè)。因此,和傳統(tǒng)超算中心以CPU算力為主不同,蘇州超算中心是以GPU算力為核心的。
根據(jù)蘇州官方的報道,蘇州超算中心一期工程是按照“5400核CPU,320塊GPU”的資源規(guī)模進行總體規(guī)劃的,搭載國際頂尖芯片及處理器,目前擁有服務器近200臺,機柜50多個,形成了“單精度浮點計算峰值為2657Tflops、雙精度浮點計算峰值為1267.92Tflops、6.75PB存儲容量”的服務能力,在智能計算領域位于國內領先水平。
值得一提的是,蘇州超算中心可以稱得上是一個惠企工程,因為對于和蘇州超算中心簽訂服務合同的企業(yè),政府會給予相應補貼,且無需主動申報,采取直接從服務價格中減免的方式來更有效地運轉資金,企業(yè)獲得的報價基本都是成本價,大大減輕了使用服務企業(yè)的資金壓力。所以,蘇州超算中心的地方價值非常高,本次火災雖然沒有造成很大的影響,但不免引起周邊企業(yè)對數(shù)據(jù)安全的擔憂。
數(shù)據(jù)中心火災屢禁不止
事實上,幾乎每年都會看到數(shù)據(jù)中心失火的新聞,而由于其特殊性和重要性,往往會造成比較嚴重的社會面影響。下面整理了近年來數(shù)據(jù)中心失火的一些案例:
??
圖 | 歷年數(shù)據(jù)中心火災情況
制圖:與非網(wǎng)
引起數(shù)據(jù)中心失火的主要原因
根據(jù)調查結果顯示,在數(shù)據(jù)機房發(fā)生的各類事故中,火災事故約占80%左右。結合前面的火災事故案例,總結出引起數(shù)據(jù)中心失火的幾個主要原因為:
?
圖 | 引起數(shù)據(jù)中心失火的主要原因
制圖:與非網(wǎng)
數(shù)據(jù)中心火災頻發(fā)背后的教訓與思考
由于數(shù)據(jù)中心具有設備多、功耗大,機房線纜多、布線復雜等特點,因此一旦發(fā)生火災就會帶來散熱困難、煙氣量大、用電量大、電氣火災居多、火災損失大、撲救難度大、節(jié)點易燃燒等問題。
與此同時要注意的是,數(shù)據(jù)中心火災和別的場景不同,所有數(shù)據(jù)中心設備都怕水,所以數(shù)據(jù)中心內部不能使用水來滅火,而常規(guī)的干粉滅火也會對設備和環(huán)境造成二次傷害,這樣在數(shù)據(jù)中心只能采用氣體滅火。氣體滅火方式可采用多種氣體,其主要原理是向火點注入惰性氣體,致使可燃物缺氧而逐漸停止燃燒,不過當前消防中常用的七氟丙烷是一種微毒性氣體,對人體危害大,所以非必要時不能使用這種氣體滅火。
綜上,火災預防才是最好的選擇,而火災預防又可分為五個方面來實施:
?
圖 | 數(shù)據(jù)中心火災預防要點
制圖:與非網(wǎng)
值得一提的是,即使做好了看似萬全的準備,也不一定能把火災扼殺在搖籃里。而此次蘇州超算中心的這場火情來得有些巧,因為根據(jù)創(chuàng)意產(chǎn)業(yè)園租戶的爆料,原本當天是消防演習的日子,而意料之外卻成了實戰(zhàn)。
?
圖源:科技園B3區(qū)客戶群