加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • █ 通信故障:一場(chǎng)持續(xù)百年的博弈
    • █ 通信網(wǎng)絡(luò)的弱點(diǎn),究竟在哪?
    • █ 為了防范故障,通信人都做了些什么?
    • █ 通信故障背后的深層次原因
    • █ 最后的話
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

關(guān)于這次通信網(wǎng)絡(luò)故障,我想多說幾句…

2022/07/06
568
閱讀需 16 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

這幾天,大家都在關(guān)注日本電信運(yùn)營(yíng)商KDDI的大規(guī)模通信故障。

這個(gè)故障影響很大,涉及到日本全境范圍,共3915萬用戶。而且,故障持續(xù)的時(shí)間很長(zhǎng),差不多花了兩天,才算基本恢復(fù)。

故障的具體原因,我看到很多公眾號(hào)都已經(jīng)寫了,我就不再重復(fù)分析了。

今天這篇文章,我想把話題放大一點(diǎn),和大家深入聊聊——都2022年了,為什么我們的通信網(wǎng)絡(luò)還有這么多故障,以及,我們到底有沒有終極解決方案。

█ 通信故障:一場(chǎng)持續(xù)百年的博弈

故障是通信網(wǎng)絡(luò)的天然屬性。就像人會(huì)生病一樣,通信網(wǎng)絡(luò)自誕生以來,就伴隨著故障?;蛘哒f,我們就是在解決故障的過程中,才創(chuàng)造了通信網(wǎng)絡(luò)。

貝爾老爹在解決了無數(shù)故障后,才發(fā)明了電話

一百多年來,無數(shù)的通信人,都在與故障進(jìn)行堅(jiān)持不懈的斗爭(zhēng)和博弈。他們努力研發(fā)了各種技術(shù),采用了各種手段,和通信故障抗?fàn)帯?/p>

從宏觀上來說,抗?fàn)幍男Ч秋@著的。在經(jīng)驗(yàn)的不斷積累下,在工藝和技術(shù)的不斷進(jìn)步下,通信網(wǎng)絡(luò)發(fā)生故障的概率在不斷下降。

年輕的讀者可能并不知道,20多年前,固定電話撥不通(有電話的家庭都不多),和停水停電一樣,是常見現(xiàn)象。10多年前,手機(jī)撥不通,上網(wǎng)上不去,也是常見現(xiàn)象。

近十年來,這些現(xiàn)象變得越來越少見。偶爾發(fā)生一次,大家反而會(huì)覺得很奇怪。網(wǎng)絡(luò)斷了,很多人的第一反應(yīng)是手機(jī)壞了,或者欠費(fèi)了,趕緊重啟或充值。不是嗎?

我們現(xiàn)在所處的信息社會(huì),通信網(wǎng)絡(luò)和水電一樣,是重要的基礎(chǔ)設(shè)施。我們的工作和生活,還有各行各業(yè)的運(yùn)轉(zhuǎn),都離不開通信網(wǎng)絡(luò)。

在這樣的前提下,通信運(yùn)營(yíng)商作為國(guó)企,作為網(wǎng)絡(luò)的建設(shè)和維護(hù)者,會(huì)始終把網(wǎng)絡(luò)的安全穩(wěn)定放在第一位。

針對(duì)網(wǎng)絡(luò)穩(wěn)定,工信部給運(yùn)營(yíng)商們?cè)O(shè)定了嚴(yán)格的考核指標(biāo)。如果某省某市出現(xiàn)了網(wǎng)絡(luò)故障,一把手肯定要擔(dān)責(zé),仕途堪憂。

運(yùn)營(yíng)商領(lǐng)導(dǎo)的壓力,會(huì)傳遞到員工身上,也會(huì)傳遞到設(shè)備商和外包商身上。

現(xiàn)在市場(chǎng)競(jìng)爭(zhēng)如此激烈,一旦出事,要么就是巨額的賠款,要么就是丟掉這個(gè)省的市場(chǎng)份額,這是設(shè)備商和外包商無法承受的損失。

所以說,整個(gè)通信行業(yè)對(duì)于通信網(wǎng)絡(luò)的安全穩(wěn)定,重視度肯定是足夠的。關(guān)鍵,還是能力和執(zhí)行的問題。

█ 通信網(wǎng)絡(luò)的弱點(diǎn),究竟在哪?

首先,我要和大家說一下通信網(wǎng)絡(luò)的安全級(jí)別定義。

根據(jù)場(chǎng)景不同,通信網(wǎng)絡(luò)的安全分為不同等級(jí)。從低到高,分別是家庭級(jí)、企業(yè)級(jí)、電信級(jí)。

通信系統(tǒng)的安全等級(jí)

像我們家里用的路由器什么的,都屬于家庭級(jí)。這種設(shè)備的安全性可靠性很低,說壞就壞,很容易導(dǎo)致網(wǎng)絡(luò)中斷。

企業(yè)級(jí)呢,就是單位里面用的網(wǎng)絡(luò)設(shè)備。根據(jù)網(wǎng)絡(luò)規(guī)模和用戶數(shù)量,企業(yè)級(jí)設(shè)備有較高的安全性可靠性,不太容易中斷服務(wù)。

電信級(jí)的要求,就更高了。像移動(dòng)、電信、聯(lián)通,它們的網(wǎng)絡(luò),要為上億的用戶提供服務(wù),絕對(duì)不允許輕易出現(xiàn)故障。通常來說,電信級(jí)的可靠性,要達(dá)到5個(gè)9以上的標(biāo)準(zhǔn)。

今天小棗君說的通信網(wǎng)絡(luò),指的就是運(yùn)營(yíng)商面向公眾的公共通信網(wǎng)絡(luò),既包括蜂窩移動(dòng)通信網(wǎng)絡(luò),也包括固網(wǎng)寬帶網(wǎng)絡(luò)。它們都屬于電信級(jí)。

蜂窩移動(dòng)通信網(wǎng)絡(luò)和固網(wǎng)寬帶網(wǎng)絡(luò)的架構(gòu)其實(shí)是類似的,主要區(qū)別在于接入網(wǎng)部分。

蜂窩移動(dòng)通信網(wǎng)絡(luò)是無線接入網(wǎng),接入設(shè)備是基站。而固網(wǎng)寬帶網(wǎng)絡(luò)是有線接入網(wǎng),接入設(shè)備是PON設(shè)備(無源光網(wǎng)絡(luò)設(shè)備,包括光貓)。

我們就以蜂窩移動(dòng)通信網(wǎng)絡(luò)為例,進(jìn)行分析。

公共通信網(wǎng)絡(luò),服務(wù)的是數(shù)以億級(jí)的用戶群體,所以,通常會(huì)采用金字塔級(jí)的架構(gòu),核心網(wǎng)為核心,傳輸網(wǎng)(承載網(wǎng))為骨干,接入網(wǎng)為四肢。

大家一眼就能看明白,這種架構(gòu),最大的弱點(diǎn),就在于核心網(wǎng)和傳輸網(wǎng)(尤其是骨干網(wǎng))。

核心網(wǎng)是管理中樞,是網(wǎng)絡(luò)的心臟和大腦,一旦掛了,就整個(gè)網(wǎng)絡(luò)掛了。所以,核心網(wǎng)工程師(比如當(dāng)年的我)是風(fēng)險(xiǎn)和壓力最大的崗位。

核心網(wǎng)機(jī)房

傳輸網(wǎng)(承載網(wǎng))呢,是通信網(wǎng)絡(luò)的血管和神經(jīng)。末梢還好說,壞了最多影響一小塊,但是,如果心血管和腦血管壞了,怎么辦?那也是徹底癱瘓。

這次KDDI發(fā)生的故障,還有2021年10月DoCoMo發(fā)生的故障,以及2020年英國(guó)四大運(yùn)營(yíng)商的故障,2020年美國(guó)CenturyLink的故障,都和核心路由器有關(guān)。說白了,就是心腦血管出了問題,整個(gè)人(網(wǎng)絡(luò))就癱了。

相比之下,接入網(wǎng)這邊出大問題的概率很低。個(gè)別基站“掉站”,最多影響幾百幾千人,范圍很小,投訴可控。

如果接入網(wǎng)出現(xiàn)大規(guī)模故障,那極有可能是設(shè)備商的軟件版本問題,或者硬件批次問題。這種情況的概率極低。

█ 為了防范故障,通信人都做了些什么?

那么,為了保證通信網(wǎng)絡(luò)的安全平穩(wěn)運(yùn)行,防范故障的發(fā)生,我們通信人都采用了哪些辦法呢?

首先,是頂層架構(gòu)設(shè)計(jì)的完善。

網(wǎng)絡(luò)的架構(gòu),是網(wǎng)絡(luò)安全之本。一個(gè)好的架構(gòu),既要考慮性能和容量,也要考慮成本,還要考慮安全和冗余。

這里請(qǐng)大家務(wù)必記住一點(diǎn):通信設(shè)備作為一個(gè)復(fù)雜的產(chǎn)品,不管你怎么設(shè)計(jì)或堆料,它都存在故障的可能,只是概率高低、時(shí)間早晚的問題。

對(duì)于可能出現(xiàn)的故障,與其嚴(yán)防死守,不如重點(diǎn)考慮發(fā)生故障之后,該怎么辦。

所以,引入備份機(jī)制,是應(yīng)對(duì)故障最有效的手段。

備份機(jī)制

大家都學(xué)過“概率與統(tǒng)計(jì)”,1個(gè)設(shè)備出現(xiàn)概率的故障如果是1%,那么,兩個(gè)設(shè)備同時(shí)出故障的概率,就是1%×1%=0.01%。沒錯(cuò)吧?

為了保證絕對(duì)的安全,網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)時(shí),會(huì)采用POOL(池)組網(wǎng)的方式,如下圖:

好幾個(gè)設(shè)備共同組成池子(POOL),各自負(fù)責(zé)業(yè)務(wù),如果有一個(gè)壞了,其它的立刻頂上,保證業(yè)務(wù)不受影響。

核心設(shè)備,通常有兩個(gè)或兩個(gè)以上,分別在省會(huì)城市的不同區(qū)域,物理上就離得很遠(yuǎn)。

此外,在做網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)時(shí),重要的設(shè)備網(wǎng)元通常會(huì)放在安全級(jí)別更高的核心機(jī)房。

例如,移動(dòng)通信網(wǎng)絡(luò)里面最最最重要的、負(fù)責(zé)存儲(chǔ)和管理用戶數(shù)據(jù)的HSS(就是以前的HLR,里面有每個(gè)用戶的手機(jī)號(hào)碼、鑒權(quán)數(shù)據(jù)、業(yè)務(wù)信息等),就存放在省會(huì)城市的核心機(jī)房。同時(shí),維護(hù)人員會(huì)定期進(jìn)行數(shù)據(jù)的物理異地隔離備份。

這幾年,因?yàn)榈刭|(zhì)災(zāi)害,加上戰(zhàn)爭(zhēng)或恐襲等因素考量,運(yùn)營(yíng)商甚至開始做異省份的備份。

例如,去年鄭州洪災(zāi),當(dāng)時(shí)核心機(jī)房被淹,HLR退服,就緊急啟用了放在鄰近省份省會(huì)城市的HLR,實(shí)現(xiàn)業(yè)務(wù)的臨時(shí)恢復(fù)。

不同的容災(zāi)級(jí)別

第二個(gè)辦法,底層的主備機(jī)制。

剛才我們說的是頂層設(shè)計(jì)的冗余機(jī)制。具體到機(jī)房、機(jī)架、單板、線纜,也都有主備的設(shè)計(jì),可以稱之為底層的主備機(jī)制。

如果去過機(jī)房,你就會(huì)發(fā)現(xiàn),機(jī)柜上的機(jī)框,插著各種各樣的單板。而這些單板,基本上都是成對(duì)出現(xiàn)的。

也就是說,某一類型的單板,通常都會(huì)有兩塊。

網(wǎng)線和光纖也是一樣,你幾乎看不到單根的線纜,都是成對(duì)的。

某廠家4G設(shè)備正面外觀

這樣做的原因,就是為了互相備份。如果某塊單板壞了,那另一個(gè)單板就能繼續(xù)工作,保證業(yè)務(wù)不受影響。同時(shí),系統(tǒng)會(huì)進(jìn)行報(bào)警,提醒工作人員盡快更換。

電源也是一樣,電信機(jī)房所有機(jī)柜設(shè)備,肯定都有至少兩路電源輸入。

除了市電以為,重要機(jī)房還會(huì)設(shè)置蓄電池、UPS、發(fā)電機(jī)等應(yīng)急供電設(shè)備。

第三,完善的管理制度和法規(guī)。

技術(shù)永遠(yuǎn)都不是影響網(wǎng)絡(luò)安全穩(wěn)定的唯一要素。對(duì)通信網(wǎng)絡(luò)威脅最大的,其實(shí)是人,而不是技術(shù)。

對(duì)于這一點(diǎn),小棗君相信每一個(gè)通信人都會(huì)有相同的感受。

在管理流程和制度方面,在工程技術(shù)規(guī)范方面,我們有過無數(shù)次血的教訓(xùn)。

為什么升級(jí)方案要反復(fù)評(píng)審?為什么工程規(guī)范要那么嚴(yán)格?為什么要建立備件倉庫?為什么割接步驟要double-check,甚至triple-check?為什么重大操作后要安排值守?為什么重要節(jié)假日要封網(wǎng)?……

這些都是前人踩雷總結(jié)下來的經(jīng)驗(yàn)。

除了內(nèi)部管理制度和流程標(biāo)準(zhǔn)之外,針對(duì)現(xiàn)在經(jīng)常發(fā)生的通信網(wǎng)絡(luò)蓄意破壞事件,國(guó)家也建立了越來越嚴(yán)格的法律法規(guī),進(jìn)行處罰。

像非法施工鏟斷光纖、蓄意破壞基站、剪斷光纖,都將受到法律的制裁。

被惡意剪斷的基站饋線

█ 通信故障背后的深層次原因

有合理的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì),有齊備的主備機(jī)制,又有完善的制度和規(guī)范,為什么還會(huì)發(fā)生這么多故障?

接下來,我來說點(diǎn)深層次的原因。

首先第一點(diǎn),估計(jì)也是大家最認(rèn)同的一點(diǎn),那就是通信行業(yè)的內(nèi)卷環(huán)境。

這些年,惡意競(jìng)爭(zhēng)、低價(jià)中標(biāo)盛行,設(shè)備商和分包商既要搶單,又要維持利潤(rùn),只能拼命壓低成本,比如產(chǎn)品設(shè)計(jì)成本、用料成本、施工材料成本。更主要的是,人員工資成本。

成本不斷壓縮,勢(shì)必影響產(chǎn)品可靠性以及工程質(zhì)量。過低的工資,導(dǎo)致大量經(jīng)驗(yàn)豐富的人才流失。分包商為了完工,只能招聘應(yīng)屆生,簡(jiǎn)單培訓(xùn)(甚至沒有培訓(xùn))之后,派到現(xiàn)場(chǎng)干活。

這些人員缺乏必要的培訓(xùn)和實(shí)踐,素質(zhì)水平和技術(shù)能力不足,成為很大的風(fēng)險(xiǎn)點(diǎn)。

有些極個(gè)別素質(zhì)低的,被壓迫狠了,直接刪庫跑路,也不是沒有可能。

前些年,為了確保一線員工不被克扣待遇,有廠商甚至和分包商簽訂合同,約束外包員工的收入底線。

除了低價(jià)競(jìng)爭(zhēng)之外,影響網(wǎng)絡(luò)運(yùn)行安全的另一個(gè)重要因素,是不斷增加的技術(shù)復(fù)雜度。

越先進(jìn)的技術(shù),復(fù)雜度越高,可靠性越低。隨著技術(shù)的演進(jìn),運(yùn)營(yíng)商的網(wǎng)絡(luò)規(guī)模變得越來越大,組網(wǎng)也越來越復(fù)雜,出現(xiàn)問題的概率大大增加。

通信網(wǎng)絡(luò)的潮汐效應(yīng)是非常明顯的。閑時(shí)和忙時(shí)有時(shí)候會(huì)有十倍甚至百倍的差異。如果出現(xiàn)意外事件(災(zāi)害等),話務(wù)量激增,更可能是千倍的差異。

運(yùn)營(yíng)商不可能做千倍的冗余設(shè)計(jì)。所以,如果沒有合理的旁路設(shè)計(jì)或閾值設(shè)計(jì),網(wǎng)絡(luò)出現(xiàn)擁塞的概率是極高的。(這幾年的幾次重大故障,都有信令流量擁塞的因素。)

目前運(yùn)營(yíng)商的復(fù)雜組網(wǎng),自己都沒幾個(gè)人能完全看懂。時(shí)間久了,人員一流動(dòng),就更陌生了。

通信網(wǎng)絡(luò)本來就是一門玄學(xué),問題千奇百怪,誰敢說自己能算準(zhǔn)每一種可能性?

第三個(gè)潛在的網(wǎng)絡(luò)安全風(fēng)險(xiǎn),也是小棗君最擔(dān)心的風(fēng)險(xiǎn),那就是外部的網(wǎng)絡(luò)攻擊。例如黑客、病毒和系統(tǒng)漏洞。

如今,通信設(shè)備基本上都IP化、云化了,網(wǎng)絡(luò)越來越開放,也有的直接部署在公有云上,和外界的物理隔離越來越弱,比以前更容易受到攻擊。

現(xiàn)在的攻擊者,水平也比以前高很多,手段也更加多樣化,對(duì)網(wǎng)絡(luò)的威脅極大。

當(dāng)然,運(yùn)營(yíng)商和設(shè)備商在防范網(wǎng)絡(luò)攻擊方面,投入也很大。

現(xiàn)在,所有廠商都關(guān)注“安全加固”這個(gè)概念。顧名思義,安全加固就是封堵系統(tǒng)漏洞,使得系統(tǒng)更加穩(wěn)固。運(yùn)營(yíng)商會(huì)采用第三方工具,或聘請(qǐng)第三方廠家,對(duì)現(xiàn)網(wǎng)設(shè)備進(jìn)行安全掃描,尋找安全漏洞,然后要求設(shè)備商進(jìn)行整改和封堵。

這種“道高一尺,魔高一丈”的博弈,會(huì)長(zhǎng)期持續(xù)下去。

但是,小棗君個(gè)人認(rèn)為,目前防御的一方,在人員安全意識(shí)、技術(shù)能力方面,都存在很大問題。后續(xù),我們遇到的安全事件,會(huì)越來越多。

希望有關(guān)單位和部門不要把安全放在嘴邊,真正花點(diǎn)功夫提升自己的人員素質(zhì),加強(qiáng)培訓(xùn)。不然真出了事,補(bǔ)救就太遲了。

█ 最后的話

日本KDDI的故障不是第一次,也肯定不是最后一次。通信網(wǎng)絡(luò)故障,就像擊鼓傳花,誰也不知道自己是不是下一個(gè)。

現(xiàn)在,廠商們都提出要引入AI,讓人工智能來接管網(wǎng)絡(luò),以此降低網(wǎng)絡(luò)的故障率。也有的廠商,在網(wǎng)絡(luò)云化的基礎(chǔ)上,搞灰度升級(jí)(即局部升級(jí)),也能大幅降低網(wǎng)絡(luò)風(fēng)險(xiǎn)。這些都是好的趨勢(shì)。

我覺得,在與通信網(wǎng)絡(luò)故障進(jìn)行斗爭(zhēng)的道路上,我們還有很長(zhǎng)的路要走。路漫漫其修遠(yuǎn)兮,通信人當(dāng)上下而求索。

好了,以上就是今天文章的全部?jī)?nèi)容。感謝大家的耐心閱讀,我們下期再見!

謝謝!

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

通信行業(yè)知名新媒體鮮棗課堂創(chuàng)始人,通信行業(yè)資深專家、行業(yè)分析師、自媒體作者,《智聯(lián)天下:移動(dòng)通信改變中國(guó)》叢書作者。通信行業(yè)13年工作經(jīng)驗(yàn),曾長(zhǎng)期任職于中興通訊股份有限公司,從事2/3/4G及5G相關(guān)技術(shù)領(lǐng)域方面的研究,曾擔(dān)任中興通訊核心網(wǎng)產(chǎn)品線產(chǎn)品經(jīng)理、能力提升總監(jiān)、中興通訊學(xué)院二級(jí)講師、中興通訊高級(jí)主任工程師,擁有豐富的行業(yè)經(jīng)驗(yàn)和積累。