導語:周龍是一個很實在的管理者,在浦東機場工作的7年間,他積攢了豐富的網絡管理經驗,他常掛在嘴邊的一句話就是:“系統不一定要多先進,尤其是在機場,最關鍵是保障系統的穩定。”
就在9月18號,上海受到強臺風“韋帕”的影響,從當日凌晨起上海市普降陣雨而后轉為暴雨,市區風力已經達到了7~9級。已經完全不適合飛機的飛行,為了避免影響民眾出行,機場領導班子召集緊急會議,部署應對“韋帕”臺風的各項措施。機場同時也啟動了應急預案,在臺風到來之前,做好了一切防范準備。這其中也有上海浦東機場網絡科在網絡管理方法上的一些“功勞”。
穩定的系統更關鍵
作為浦東機場IT系統的建設和支持部門之一,上海國際機場股份有限公司機電通信分公司承擔著浦東機場的通信信息系統、應用電子及監控系統的建設、改造和日常系統維護工作。
推開上海浦東機場網絡科辦公室的大門,發現周龍科長正在組織網絡中心討論浦東機場二號航站樓(T2)的網絡部署方案。據周科長介紹,二期工程的網絡方案將在一期的基礎上,吸收很多經驗,將進行一些改造,但是網絡管理的方法可能還將延續下去。
作為新上海的形象窗口,位于上海浦東長江入海口南岸的濱海地帶的浦東機場占地達40多平方公里,從1999年9月通航之后,就具備了導航、通訊、監視、氣象和后勤保障等系統,提供24小時全天候服務。從2006年的統計數據來看,在2006年已經接待乘客2500萬人,日均架次達到800架。到2008年,第二座候機樓投入使用前的運營要備年飛機起降30萬架次、年旅客吞吐量3650萬人次的保障能力。
從1999年,周龍就開始為浦東機場工作,這些年積攢了豐富的網絡管理經驗,他認為:“系統不一定要多先進,尤其是在機場,最關鍵是保障系統的穩定?!边@也是他常掛在嘴邊的一句話。從他的話語中,可以看到他是一個非常務實的管理者,在對產品進行競標選購的時候,也需要反復斟酌測試,選用最穩定的產品。
由于機場最早的航班是4點,所以系統要求在兩點左右就要進入狀態,而夜航的“紅眼”航班最晚可能要到1點半,所以浦東機場基本處于24小時連續云狀狀態,系統的可靠運行,成了周龍每天的重要工作。
談到機場IT系統管理工作的特點,周龍介紹說,機場IT應用種類多樣,關鍵業務支持系統包括航班管理系統、離港系統、航班顯示系統、信息查詢系統、廣播行李系統等。目前部門使用的系統管理軟件包括,記錄網絡日志的HP OpenView和進行網絡設備配置與管理的CiscoWorks。
由于這兩種管理工具使用復雜,只有專業的管理人員才可以配置和操作。而機場的全天候運行的生產系統的運營情況是需要由部門內應用水平不同的員工輪流職守的。
周龍每天都在腦海中不斷思索著如何讓系統更加穩定,而且在網絡出現問題后如何以最快的速度得知準確的癥因。這個問題已經在網絡科內部討論多次,但因為當時的網絡管理已經形成一定的管理和習慣,很難推倒重來,做到不破不立的改造。
在2005年,網絡改造的任務中,周龍為了能夠讓所有網絡維護人員獲得易用且直觀的網絡監控能力,并且構建系統不安全因素的主動發現機制,干脆拋棄舊的管理思想,重新引入了一套SiteView ECC網絡管理系統。
凝聚管理思路
周龍在工作中體會最深的一點是,在完整而精密的IT管理鏈條中,網絡監控是必要且位于鏈條源頭位置的一環。對所有企業的IT管理者而言,網絡監控不僅是網絡管理體系構建的開端,更是凝聚完善管理思路的關鍵一步。
經過長期的技術積累和應用實踐,周龍認為,網絡監控成為管理對象覆蓋網絡硬件設備、軟件部件、網上行為和IT應用內容在內的綜合性、集成化的技術應用體系。
對于需要在IT系統中實際部署網絡監控能力的企業而言,開源或商業化軟件的選擇都非常充分,而比較而言,商業化的專業監控軟件在應用可靠性、服務保障、構建集成化管理體系的能力更勝一籌,因此它們也成為了眾多企業在生產運營系統建設告于段落之后的必要選擇。
周龍所負責的部門,目前承擔著對浦東機場生產業務系統中的300多臺網絡設備、50多臺服務器、1000多臺PC進行管理,系統內的信息點超過25000個。由于環境復雜,基礎出身的周龍在與合作伙伴的配合下,開發了一些程序腳本,與SiteView ECC網絡管理系統配合,在部門內實現了對關鍵應用服務器、重點網絡設備、應用關鍵進程、甲骨文數據庫表空間等IT部件及應用指標的綜合監控。
該部門機房的一臺終端上,工作人員就可以通過網絡拓撲圖的方式詳細顯示被監控設備及應用的具體運營狀況。當節點監控指標出現異常時,系統自動給出紅色警示,并提供具體參數的查看鏈接。“通過近7年的系統維護經驗,我們選定了需要嚴密監控的關鍵節點和應用指標,能夠用簡便和直觀的方式清晰地呈現這些信息。”周龍說。
故障修復加速度
網管系統強調的概念其實很簡單,那就是對分散的網絡進行集中式的控管,不管網絡結構,網絡環境有多么的分散,但是只要在管理方面做到集中控管,那么便會把網絡的故障發生率降至最低,即使發生了網絡故障,排除故障的時間也會最短化。
為了提升系統故障上報效率,周龍將網絡系統與一個叫“短信貓”的系統相連接,當網絡出現故障時,報警系統會自動啟用報警程序,通過系統傳輸到報警器上,在通過短信息的形式發送給相關的負責人,從而提醒網絡科的系統管理人員處理故障。
同時,浦東機場在監測系統支持下,每當系統出現各種異常情況之后,管理系統內的各種故障都經由該系統進行報告,系統將故障及時、準確地通知到網絡科運維人員及各種設備、軟件的外包商,并跟蹤故障解決的全過程。
這套系統不但可以記錄了設備的使用狀態,完成設備配置管理的功能,為設備維修、報廢、更新提供依據;也可以快速統計解決故障的時效以及各種設備發生故障的頻率,提供常見故障的解決方法等。在周龍看來,最重要的是讓部門完善了系統故障分級報告制度。
伴隨著浦東機場第二座候機樓在2008年的投入使用,網絡管理系統將在網絡監控的基礎上進行大規模的擴展?!霸诰W絡管理系統建設的過程中,我們會延續已經貫徹多年的穩步推進的策略?!敝荦堈f。