中石油總部大樓技術支持維護是該公司信息技術服務中心與其他公司共同合作開展的工作,主要負責維護總部大樓的機房、系統、網絡、桌面、應用業務等的正常運行。通過部署MXsoft公司的“CreCloud云網管”,實現了對總部大樓數據中心和核心業務應用的全面深度監控,成為IT系統正常運行的保障。
引言
隨著信息化發展的加速和深入,總部大樓的IT系統和網絡越來越復雜,各級單位對網絡正常運轉的依賴性逐漸增大,IT和網絡應用逐漸融入到單位的日常工作中。網絡基礎設施和各種應用系統在不斷增加,一旦IT系統和網絡運行出現問題,將會對所有的依賴于信息化平臺的正常工作產生影響。因此,高效的系統與管理已經成為總部大樓信息化建設是否成功的重要條件。
選型
綜合國內各大行業用戶的IT系統和網絡建設,中石油總部大樓IT業務系統管理的長期目標是應該是建設一個能滿足“集中監控、集中維護、集中管理”現代化網絡管理模式需要的,面向業務、面向市場的IT 業務管理系統,實現端到端的管理,全面保障用戶的IT業務系統的高效穩定運行,幫助管理工程師提高工作效率,從而提高IT資產的投資回報率。
要實現這一長期的管理目標,需要借助IT業務管理系統的有效部署來實現。我們在選擇和部署IT業務管理系統的時候,最關心的焦點問題如下:
● 減少了多少IT業務系統發生宕機或者其他故障所帶來的風險?
● 是否從根本上降低了管理和維護的復雜度?
● 幫助用戶節省了多少時間,提高了多少效率?
美信實時監測系統的最終目的是通過解決上面的三大問題,從而幫助我們提高IT資產的投資回報率。基于以上的考慮,我們部署了最先進的“CreCloud云網管”美信實時監測系統。
主要技術
中石油總部大樓采用的“CreCloud云網管”是一套綜合管理平臺,可廣泛應用于對局域網、廣域網、城域網和關鍵IT業務系統中的路由器、交換機、防火墻、負載均衡設備、服務器、操作系統、數據庫、中間件、網站、域名、URL、OA、CRM、ERP、SCM、HIS等各種IT網絡組件和業務系統進行7X24的持續監控、不間斷的數據采集和分析,對錯誤和故障數據進行顏色、聲音、短信息、郵件等多種方式的報警,提供多種圖形和報表幫助用戶進行故障分析和性能診斷。下面就以這款軟件為例,簡要說明其中的技術原理。
1、“CreCloud云網管”技術架構
美信實時監測系統為C/S架構,C++語言開發,采用最新的“云計算”方式部署,即透過網絡將龐大的計算處理程序自動分拆成無數個較小的子程序,再交由多部服務器所組成的龐大系統經搜尋、計算分析之后將處理結果回傳給用戶。透過這項技術,網絡服務提供者可以在數秒之內,達成處理數以千萬計甚至億計的信息,達到和“超級計算機”同樣強大效能的網絡服務。
#p#副標題#e#
2、監控技術
美信實時監測系統集成了目前所有主流的遠程監測技術,利用獨立開發的主動預測式動力引擎(TaskDispatcher)實現海量秒級監測。
1)Agent
通常指代表一個應用程序處理查詢并返回結果的軟件,駐留在所有受管設備中并向管理站報告指定變量值的過程。美信實時監測系統的Agent監測代理利用c語言開發,同時支持Windows和Unix/Linux。在對服務器進行監控時,凡是通過SNMP、WMI、TELNET(SSH)等方式可以監測的數據,Agent都可以監測到。Agent監測模塊更可以監測到通過以上這些方式無法獲取的數據,比如帳戶的安全性監控,占用系統資源的TOP5進程監控,文件的安全性監控,數據庫日志文件監控等。通過此功能,美信實時監測系統完全實現了對被監測系統的全方位監測。
2)Ping
使用 Ping可以根據計算機的 ip 地址驗證與遠程計算機的連接,通過將 ICMP 回顯數據包發送到計算機并偵聽回顯回復數據包來驗證與一臺或多臺遠程計算機的連接,該命令只有在安裝了TCP/IP 協議后才可以使用。利用此功能,讓監測人員可以實時了解所監測服務器、網絡設備和各種應用地址的通斷情況,在設備出現狀況時,第一時間做出反應。
3)SNMP協議
SNMP(Simple Network Management Protocol,簡單網絡管理協議)的前身是簡單網關監控協議(SGMP),用來對通信線路進行管理。隨后,人們對SGMP進行了很大的修改,特別是加入了符合Internet定義的SMI和MIB體系結構,改進后的協議就是著名的SNMP。SNMP的目標是管理Internet上眾多廠家生產的軟硬件平臺。SNMP運行過程:駐留在被管設備上的AGENT從UDP端口161接受來自網管站的串行化報文,經解碼、團體名驗證、分析得到管理變量在MIB樹中對應的節點,從相應的模塊中得到管理變量的值,再形成響應報文,編碼發送回網管站。網管站得到響應報文后,再經同樣的處理,最終顯示結果。通過這種協議,美信實時監測系統不用知道對方服務器的用戶名和密碼便能通過IP地址實現對所監測服務器的CPU、內存、磁盤利用率、進程和服務等各項指標的監測。
4)TELNET、SSH
Telnet協議是TCP/IP協議族中的一員,是Internet遠程登陸服務的標準協議和主要方式。它為用戶提供了在本地計算機上完成遠程主機工作的能力。Telnet遠程登錄服務分為以下4個過程:
a)本地與遠程主機建立連接。該過程實際上是建立一個TCP連接,用戶必須知道遠程主機的IP地址或域名;
b)將本地終端上輸入的用戶名和口令及以后輸入的任何命令或字符以NVT(Net Virtual Terminal)格式傳送到遠程主機。該過程實際上是從本地主機向遠程主機發送一個IP數據包;
c)將遠程主機輸出的NVT格式的數據轉化為本地所接受的格式送回本地終端,包括輸入命令回顯和命令執行結果;
d)最后,本地終端對遠程主機進行撤消連接。該過程是撤銷一個TCP連接。
SSH(安全外殼協議)是一種在不安全網絡上提供安全遠程登錄及其它安全網絡服務的協議。主要有三部分組成:
a)SSH-TRANS提供了服務器認證,保密性及完整性。此外它有時還提供壓縮功能。
b)SSH-TRANS 通常運行在 TCP/IP連接上,也可能用于其它可靠數據流上。
c)SSH-TRANS 提供了強力的加密技術、密碼主機認證及完整性保護。
通過這兩個協議,可以讓美信實時監測系統對Unix、Linux和AIX等非windows系統進行監測。也讓這一監測平臺涵蓋了目前流行的全部操作系統。
5)ODBC
ODBC(Open Database Connectivity,開放數據庫互連)是微軟公司開放服務結構(WOSA,Windows Open Services Architecture)中有關數據庫的一個組成部分,它建立了一組規范,并提供了一組對數據庫訪問的標準API(應用程序編程接口)。 一個完整的ODBC由下列幾個部件組成:
a)應用程序(Application)。
b)ODBC管理器(Administrator)。其主要任務是管理安裝的ODBC驅動程序和管理數據源。
c)驅動程序管理器(Driver Manager)。驅動程序管理器包含在ODBC32.DLL中,對用戶是透明的。其任務是管理ODBC驅動程序,是ODBC中最重要的部件。
d)ODBC API。
e)ODBC 驅動程序。是一些DLL,提供了ODBC和數據庫之間的接口。
f)數據源。數據源包含了數據庫位置和數據庫類型等信息,實際上是一種數據連接的抽象。
美信實時監測系統利用此功能實現了對ORACLE、SQL SERVER、MYSQL、SYBASE、DB2、INFORMIX等目前主流數據庫的Buffer狀況、內存、用戶、Cache、請求、表空間、讀寫性能等各項指標的監測。
6)QoE
QoE(Quality of Experience)可以理解為用戶體驗或者用戶感知,即終端用戶對網絡提供的業務性能的主觀感受。它可以通過接近量化的方法來表示終端用戶對業務與網絡的體驗和感受,并反映當前業務和網絡的質量與用戶期望值之間的差距。通過此功能,美信實時監測系統模擬終端用戶去訪問一個被監測的URL或應用時,通過返回值可以及時得知此服務的運行狀態,從而實現監測功能,此功能主要用于測試網頁的訪問狀態是否正常。
結論與建議
美信實時監測系統部署在總部大樓的時間已經兩年多了,在這兩年里,產生各種預警信息2萬余條,預警重大事故2次,報警信息范圍涉及網絡、場地、系統、門戶等各個方面,為領導決策提供了重要幫助,很好的起到了第一道防線的作用。