核心網(wǎng)是網(wǎng)絡(luò)大腦,也是 5G 使能行業(yè)數(shù)字化轉(zhuǎn)型的引擎,但現(xiàn)有運(yùn)維模式通過多年的實(shí)踐,核心網(wǎng)運(yùn)維仍存在幾大窘境。
人員能力提升緩慢
維護(hù)人員既要做分析、又要去操作,可能最后分析沒做好、操作無法落實(shí)。維護(hù)人員就是解決設(shè)備問題?,F(xiàn)有的運(yùn)維機(jī)制是:設(shè)備產(chǎn)生告警、監(jiān)控收告警派工單、維護(hù)人員處理工單、監(jiān)控核實(shí)回單質(zhì)量完成閉環(huán)??此贫嗝赐昝赖墓芾砹鞒?。實(shí)際上,維護(hù)人員在看到告警的時(shí)候可能無法準(zhǔn)確定位問題根因。這就對(duì)維護(hù)人員的技能水平提出了較高的要求。只有具有較高的技能水平、多年的維護(hù)經(jīng)驗(yàn),才能夠具有從虛虛實(shí)實(shí)的告警信息中分析出關(guān)鍵問題點(diǎn)。這僅僅是做了第一步。其次還要具備處理問題的能力。這個(gè)問題該如何處理?可能需要更換板卡的能力、可能需要聯(lián)系承載網(wǎng)、周邊網(wǎng)元協(xié)同處理等等的協(xié)同能力。
實(shí)際上,人員真實(shí)技能和實(shí)際工作技能需求的缺口始終存在。這就導(dǎo)致一個(gè)大家都不想看到的但又是實(shí)際存在情況:有時(shí)我們又沒做好故障分析、也沒做好故障處理。
維護(hù)人員故障處理能力的提升需要大量的案例來支撐,而實(shí)際上核心網(wǎng)沒有大量的故障案例來支撐大批的維護(hù)人員提升能力。這就導(dǎo)致:維護(hù)人員間的故障處理能力始終不是均衡的。這就好比醫(yī)生看病一樣,醫(yī)生的經(jīng)驗(yàn)來源于大量的臨床經(jīng)驗(yàn)。我們之所以相信老中醫(yī)、老醫(yī)生,是因?yàn)檫@些醫(yī)生處置過大量的病例(=故障案例),處置這些病例的同時(shí)也提升了醫(yī)生自身的能力和水平。如果僅僅是依靠看書學(xué)習(xí)病例,是無法顯著提升醫(yī)生的水平的。同樣的道理,維護(hù)工作也類似醫(yī)生,既需要學(xué)習(xí)也需要案例來支撐能力提升。這就是為什么一些核心網(wǎng)的前輩們所說的:培養(yǎng)一個(gè)成熟的核心網(wǎng)人員至少需要 3 年以上的原因。
監(jiān)管能力不足
現(xiàn)在的設(shè)備監(jiān)控模式是:設(shè)備產(chǎn)生告警然后發(fā)送給廠家 OMC,廠家 OMC 再發(fā)送給集中故障系統(tǒng),集中故障系統(tǒng)再派 EOMS 工單給維護(hù)人員(監(jiān)控人員同步人工通知部分告警情況。)這個(gè)監(jiān)控模式不僅僅適用于核心網(wǎng)設(shè)備,也應(yīng)用于所有無線、傳輸、動(dòng)力等專業(yè)的設(shè)備。不僅僅適用于網(wǎng)絡(luò)管理中心,也應(yīng)用于所有的分公司。這個(gè)模式通過多年的運(yùn)營(yíng)已經(jīng)暴露出至少三大主要問題:
? 第一大問題:故障通知存在時(shí)延問題
核心網(wǎng)不發(fā)生故障是難以實(shí)現(xiàn)的,核心網(wǎng)的維護(hù)目標(biāo)應(yīng)該定位成:不發(fā)生重大故障。重大故障不是從 0 瞬間突變成重大故障,而是從 0 變成小故障,再發(fā)展成大故障。在故障監(jiān)管上,核心網(wǎng)需要告警通知的時(shí)延足夠短,多短?我認(rèn)為 15 分鐘以內(nèi)就是目標(biāo)。而實(shí)際上,現(xiàn)有的模式下部分告警時(shí)延已經(jīng)超過 1 小時(shí)甚至更多。
? 第二大問題:告警沒有聚類分析,監(jiān)管無法準(zhǔn)確定位到根因
舉一個(gè)例子:所有的核心網(wǎng)設(shè)備都會(huì)上承載網(wǎng),就是和 CE 相連。如果 CE 出了點(diǎn)動(dòng)靜必然導(dǎo)致和它相連的設(shè)備出現(xiàn)故障告警。不同類型的核心網(wǎng)設(shè)備同時(shí)出故障的幾率相對(duì)不大,所以這種情況下,應(yīng)該同步判斷 CE 是否有故障,同步通知承載網(wǎng)專業(yè)。簡(jiǎn)而言之,就是故障根因定位(尤其是跨專業(yè)的故障根因定位)在當(dāng)前運(yùn)維體系下至少是缺失的。這就導(dǎo)致監(jiān)控人員和專業(yè)人員在判斷故障的標(biāo)準(zhǔn)不一致,監(jiān)控人員判斷故障只有告警,而專業(yè)人員在故障判斷上會(huì)有多種手段。這就導(dǎo)致出現(xiàn)了監(jiān)控只有通知功能,無法發(fā)揮“指揮調(diào)度”功能。
? 第三大問題:監(jiān)管系統(tǒng)自身的故障將導(dǎo)致告警通知體系失靈
所以的設(shè)備都有故障率,區(qū)別只在于故障率的大小而已!那么,我們的故障監(jiān)控體系會(huì)不會(huì)失靈呢?監(jiān)管體系是一個(gè)依靠多專業(yè)、多人員配合的體系。多專業(yè)配合:涉及核心網(wǎng)設(shè)備的告警準(zhǔn)確上報(bào)、廠家網(wǎng)管的穩(wěn)定運(yùn)行、集中故障系統(tǒng)軟 硬件的穩(wěn)定運(yùn)行等大量異廠家的配合問題。還存在中間環(huán)節(jié)的升級(jí)改造等情況。任何一個(gè)環(huán)節(jié)的失靈都將導(dǎo)致監(jiān)控系統(tǒng)的失靈。
管理視圖和維護(hù)視圖嚴(yán)重不一致
我舉一個(gè)例子:在一個(gè)周六的早上,有領(lǐng)導(dǎo)問我,為什么核心網(wǎng)的故障數(shù)量增長(zhǎng)這么多?(指每天的監(jiān)控日?qǐng)?bào))這個(gè)事情我從接到任務(wù)開始一直弄到下午 4 點(diǎn),才做完全部分析。領(lǐng)導(dǎo)的疑問在機(jī)制上至少反映了三方面問題:
? 問題 1:管理人員視圖和維護(hù)人員視圖不一致
這是什么意思呢?這個(gè)監(jiān)控日?qǐng)?bào)是沒有發(fā)到維護(hù)人員手上的。維護(hù)人員沒有掌握這個(gè)生產(chǎn)資料,這就會(huì)導(dǎo)致管理人員的要求和維護(hù)人員的工作沒辦法統(tǒng)一。簡(jiǎn)單的說,領(lǐng)導(dǎo)有這個(gè)信息,維護(hù)人員沒這個(gè)信息,維護(hù)人員可能就沒有去關(guān)注。
?? 問題 2:管理視圖和維護(hù)視圖的定位出現(xiàn)了偏差
我并非對(duì)日?qǐng)?bào)本身持否定意見。我是把日?qǐng)?bào)定位成管理視圖,就是領(lǐng)導(dǎo)看到的或者需要知道的信息。領(lǐng)導(dǎo)看到的信息應(yīng)該是各級(jí)信息分析處理后的匯總。管理視圖的定位到底是用于驅(qū)動(dòng)工作的實(shí)施還是用于獲取信息?就監(jiān)控日?qǐng)?bào)而言,我覺得這個(gè)管理視圖更多的應(yīng)該是用于信息總結(jié)。它還缺少一個(gè)維護(hù)人員視圖和監(jiān)控日?qǐng)?bào)管理視圖相結(jié)合用于驅(qū)動(dòng)工作實(shí)施。簡(jiǎn)單的說:監(jiān)控日?qǐng)?bào)現(xiàn)在的分析只是分析專業(yè)告警總量,沒有就各類設(shè)備、各臺(tái)設(shè)備的告警量進(jìn)行統(tǒng)計(jì)分析。需要對(duì)各類設(shè)備、每臺(tái)設(shè)備的告警量進(jìn)行分析,這些分析將用于三級(jí)經(jīng)理、主管層級(jí)的管理人員實(shí)施管理,同時(shí)這個(gè)維護(hù)視圖還需要維護(hù)人員用于管理設(shè)備。而到了更高級(jí)別的領(lǐng)導(dǎo),他們的管理視圖是具備信息下鉆的能力:既能看總量,又能看各專業(yè)的詳細(xì)分析。簡(jiǎn)而言之,管理視圖可以直接看到具體某類、某臺(tái)設(shè)備的告警數(shù)量、類型變化以及變化趨勢(shì),能夠直接看到責(zé)任人。而這個(gè)工作不需要人來做,而應(yīng)該由系統(tǒng)自動(dòng)完成。這就是最理想的情況:管理者通過管理界面可以獲取各類信息,能夠有一覽眾山小、一切盡在掌握的感覺。維護(hù)人員通過維護(hù)界面可以獲取處理問題的必要信息,越是分析到末梢越好。
最后用一段來自總部對(duì)當(dāng)前運(yùn)維囧境的總結(jié):
網(wǎng)絡(luò)的平穩(wěn)運(yùn)行仍需依靠運(yùn)維人員的維護(hù)操作,無法做到即插即用、無法做到自治自愈。流程沒有端到端打通、數(shù)據(jù)和系統(tǒng)割裂,完成一個(gè)或一類任務(wù)需要跨系統(tǒng),沒有統(tǒng)一完整的視圖。規(guī)則主要靠人的經(jīng)驗(yàn),支撐手段靠數(shù)據(jù)驅(qū)動(dòng)、算法驅(qū)動(dòng)、AI 驅(qū)動(dòng)的程度不足。數(shù)據(jù)自動(dòng)采集、自動(dòng)呈現(xiàn)手段能力不足,大量寶貴的人力資源消耗的數(shù)據(jù)收集、整理、反饋的工作中。
面向 5G 時(shí)代,核心網(wǎng)的穩(wěn)定性更加重要,如何實(shí)現(xiàn)高可靠的設(shè)備穩(wěn)定性,這對(duì)網(wǎng)絡(luò)運(yùn)維提出了更高的要求。我們不是生存在刀耕火種的年代,現(xiàn)代化的網(wǎng)絡(luò)運(yùn)維工作必須依靠智能化的工具和系統(tǒng)來獲取運(yùn)維信息、提升運(yùn)維效率,同時(shí)具備自動(dòng)發(fā)現(xiàn)問題、自動(dòng)定位問題、自動(dòng)解決問題的能力,這就是我們常說的“智慧運(yùn)維”。
本文作者:liyu
網(wǎng)優(yōu)雇傭軍投稿郵箱:wywd11@126.com
長(zhǎng)按二維碼關(guān)注
通信路上,一起走!