国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關(guān)注微信公眾號(hào)

征文:四大要點(diǎn)管理維護(hù)雙機(jī)熱備系統(tǒng) 上
2007-11-15   IT168

本人在省信息中心負(fù)責(zé)電子政務(wù)技術(shù)支持與運(yùn)行管理,為了保證政務(wù)外網(wǎng)WEB系統(tǒng)、公務(wù)員考試網(wǎng)上申報(bào)、在線訪談等一些關(guān)鍵業(yè)務(wù)的穩(wěn)定運(yùn)行,我們采用了多臺(tái)雙機(jī)熱備系統(tǒng)。

理解雙機(jī)熱備,必須要認(rèn)清這樣幾點(diǎn):

1. 對(duì)于一臺(tái)服務(wù)器而言,壞的可能總是存在的。故障的原因多種多樣,包括硬件、軟件、人為故障等,任何一個(gè)環(huán)節(jié)都有可能發(fā)生。
2. 服務(wù)中斷不僅可能發(fā)生在管理員在的時(shí)候,也可能發(fā)生在機(jī)房空無一人的時(shí)候,而一臺(tái)跑著應(yīng)用系統(tǒng)的數(shù)據(jù)庫服務(wù)器,并不是很容易就能恢復(fù)的。
3. 數(shù)據(jù)備份當(dāng)然是重要的數(shù)據(jù)保護(hù)措施,但只是事后的解決方法,無法預(yù)防應(yīng)用停止。
4. RAID只能解決硬盤的問題,解決不了服務(wù)器的問題。

當(dāng)然如果系統(tǒng)中沒重要應(yīng)用,我們沒必要考慮雙機(jī)熱備。或者我們可以容忍應(yīng)用系統(tǒng)停止運(yùn)行一天,雙機(jī)系統(tǒng)也并非十分重要。但是,如果應(yīng)用停上一個(gè)小時(shí)就會(huì)帶來嚴(yán)重的問題,那么就無疑應(yīng)該考慮一下雙機(jī)系統(tǒng),而如果業(yè)務(wù)系統(tǒng)停上十分鐘都難以承受,這時(shí)候雙機(jī)熱備方案就是必須的了。

雙機(jī)系統(tǒng)實(shí)際上是服務(wù)器應(yīng)用的冗余備份,但是因?yàn)橥ǔ2捎猛庵么疟P陣列存儲(chǔ)數(shù)據(jù),因而企業(yè)可以更方便集中的對(duì)數(shù)據(jù)進(jìn)行管理和備份,從而進(jìn)一步提高整個(gè)系統(tǒng)的效率和可用性。當(dāng)一臺(tái)服務(wù)器上的應(yīng)用發(fā)生故障時(shí),系統(tǒng)可以方便無縫的切換到另外一臺(tái)服務(wù)器,承擔(dān)起原有該服務(wù)器所承擔(dān)的大部分應(yīng)用,從而保證業(yè)務(wù)的不停頓運(yùn)行。最重要的是,整個(gè)切換過程是自動(dòng)進(jìn)行的,前端幾乎很難察覺到后臺(tái)的服務(wù)器系統(tǒng)的故障。

雙機(jī)熱備系統(tǒng)本身已經(jīng)是較為穩(wěn)定的系統(tǒng),這表現(xiàn)在雙機(jī)熱備系統(tǒng)已經(jīng)具備了一定的抗風(fēng)險(xiǎn)能力,但是雙機(jī)熱備系統(tǒng)也意味著更復(fù)雜的管理、維護(hù)和升級(jí)工作。因此,在這里,我們通過兩臺(tái)IBM P630小型機(jī)和7133磁盤陣列實(shí)現(xiàn)雙機(jī)熱備為例,來說明通過HACMP 5.1來實(shí)現(xiàn)AIX 5.2的Oracle 9i數(shù)據(jù)庫主從熱備系統(tǒng)的運(yùn)行維護(hù)和升級(jí)管理工作。

1

IBM HACMP雙機(jī)熱備方案說明

HACMP 是 High Availability Cluster Multi-Processing 的縮寫。HACMP 是 IBM 公司在 P 系列 AIX 操作系統(tǒng)上的高可靠集群軟件,配置冗余,消除單點(diǎn)故障,保證整個(gè)系統(tǒng)連續(xù)可用性和安全可靠性。HACMP是利用網(wǎng)絡(luò)來偵測(cè)主機(jī)及網(wǎng)卡的狀況,搭配AIX所提供的硬盤鏡像等功能,在主機(jī)、網(wǎng)卡、硬盤控制卡、硬盤或網(wǎng)絡(luò)任何一個(gè)環(huán)節(jié)發(fā)生故障時(shí),都可自動(dòng)切換到另一套備用元件上重新工作;若是主機(jī)故障還切換至備份機(jī)上繼續(xù)應(yīng)用系統(tǒng)的運(yùn)行。

""

圖1

""

圖2

如上圖,兩臺(tái)主機(jī)A和B分別都安裝AIX 5.2系統(tǒng),HACMP軟件和Oracle 9i數(shù)據(jù)庫,數(shù)據(jù)和應(yīng)用系統(tǒng)安裝在7133磁盤陣列上。作為雙機(jī)系統(tǒng)的兩臺(tái)服務(wù)器A和B同時(shí)運(yùn)行 HACMP 軟件,一臺(tái)P630作為主機(jī)A運(yùn)行oracle 9i和應(yīng)用系統(tǒng),另一臺(tái)P630作為備份機(jī)B處于備份狀態(tài)(此時(shí)沒有運(yùn)行數(shù)據(jù)庫和應(yīng)用系統(tǒng))。

在整個(gè)運(yùn)行過程中,通過 串口的SCSI“心跳線”相互監(jiān)測(cè)對(duì)方的運(yùn)行情況 (包括系統(tǒng)的軟硬件運(yùn)行、網(wǎng)絡(luò)通訊和應(yīng)用運(yùn)行情況等)一旦發(fā)現(xiàn)對(duì)方主機(jī)A運(yùn)行不正常時(shí),備份機(jī)B就會(huì)立即在自己的機(jī)器上啟動(dòng)應(yīng)用,把主機(jī)A的應(yīng)用及其資源(包括用到的IP地址和磁盤空間等)接管過來,使主機(jī)A上的應(yīng)用在備份機(jī)B繼續(xù)運(yùn)行。

主機(jī)和備份機(jī)的確定取決于哪臺(tái)機(jī)器先啟動(dòng)了HACMP服務(wù),先啟動(dòng)的就是主機(jī),另外一臺(tái)就是備份機(jī)。應(yīng)用和資源的接管過程由 HACMP 軟件自動(dòng)完成,無需人工干預(yù);當(dāng)兩臺(tái)主機(jī)正常工作時(shí),也可以根據(jù)需要將其中一臺(tái)機(jī)上的應(yīng)用人為切換到另一臺(tái)機(jī) (備份機(jī))上運(yùn)行。

雙機(jī)系統(tǒng)的維護(hù)與管理更為復(fù)雜一點(diǎn),在雙機(jī)熱備系統(tǒng)的維護(hù)與管理中,個(gè)人認(rèn)為以下四大環(huán)節(jié)是必須注意的:

1

一、重視雙機(jī)熱備的啟動(dòng)程序

雙機(jī)熱備系統(tǒng)的開機(jī)順序是必須重視的,我們以前不久機(jī)房的一次斷電事故來說明雙機(jī)熱備系統(tǒng)啟動(dòng)程序的重要性。

由于單位進(jìn)行機(jī)房改造,需要切換市電。為保證業(yè)務(wù)不間斷運(yùn)營,我們通過60KVA的梅蘭日藍(lán)UPS給機(jī)房提供不間斷供電,同時(shí)考慮到60KVA所帶的負(fù)載較重,關(guān)閉了一些不重要的服務(wù)器,也做了一些應(yīng)急措施。但是當(dāng)機(jī)房停電5分鐘時(shí)間后,UPS突然宕機(jī),隨即機(jī)房的所有網(wǎng)絡(luò)設(shè)備和服務(wù)器全體“罷工”。

檢查UPS發(fā)現(xiàn)供電電池出現(xiàn)問題,不能提供30分鐘的正常供電,我們只好重新恢復(fù)市電工作。斷電前由于沒有及時(shí)關(guān)閉P630小型機(jī)和7133磁盤陣列的電源開關(guān),當(dāng)市電啟用時(shí),小型機(jī)和7133磁盤陣列也就自動(dòng)啟動(dòng)了。

AIX系統(tǒng)起來后,我們到兩臺(tái)小型機(jī)上查看運(yùn)行ORACLE數(shù)據(jù)庫和應(yīng)用系統(tǒng)時(shí),發(fā)現(xiàn)找不到“數(shù)據(jù)盤”,用Lsvg顯示當(dāng)前系統(tǒng)的所有卷組,發(fā)現(xiàn)只有rootvg,沒有datavg,而數(shù)據(jù)卷組是放在7133磁盤陣列上的。這就是典型的因?yàn)榈綦娫斐傻姆钦jP(guān)機(jī)和開機(jī)導(dǎo)致了無法正常啟動(dòng)。

在這個(gè)方案中,雙機(jī)熱備系統(tǒng)正確的開機(jī)步驟應(yīng)當(dāng)是這樣的:

  • 先開外設(shè)如磁盤陣列7133和磁帶機(jī)
  • 然后再開兩臺(tái)主機(jī)A和B
  • 等主機(jī)AIX系統(tǒng)啟動(dòng)后,然后再分別啟動(dòng)HACMP服務(wù),注意不能同時(shí)啟動(dòng)HACMP服務(wù)
  • 最后啟動(dòng)ORACLE數(shù)據(jù)庫和應(yīng)用系統(tǒng)。
  • 關(guān)機(jī)則正好相反,先關(guān)閉ORACLE數(shù)據(jù)庫服務(wù)和應(yīng)用系統(tǒng),再停止HACMP服務(wù),然后關(guān)閉主機(jī)系統(tǒng),最后關(guān)閉磁盤陣列7133和磁帶機(jī)。

所以啟動(dòng)雙機(jī)熱備系統(tǒng)的時(shí)候遵循正確的啟動(dòng)程序非常重要,在上面的案例中,因?yàn)閬黼姇r(shí),小型機(jī)和磁盤陣列同時(shí)啟動(dòng),等AIX啟動(dòng)好后就認(rèn)不出磁盤陣列等外設(shè)了。解決方法是關(guān)閉小型機(jī)和7133磁盤陣列,再按照規(guī)范開機(jī)順序開啟系統(tǒng),等AIX系統(tǒng)起來后,啟動(dòng)HACMP,再查看數(shù)據(jù)卷組時(shí),就能找到了。啟動(dòng)數(shù)據(jù)庫和應(yīng)用服務(wù),測(cè)試結(jié)果一切正常。這一點(diǎn)與現(xiàn)在的PC機(jī)操作不同,外設(shè)和主機(jī)同時(shí)啟動(dòng)都不會(huì)出什么問題的。

此外,在使用HACMP服務(wù)時(shí),兩臺(tái)小型機(jī)也不能同時(shí)打開,必須按先后順序來開機(jī)。這是因?yàn)槲覀儾捎玫碾p機(jī)熱備模式是主從熱備,啟動(dòng)HACMP服務(wù)的先后順序決定了哪一臺(tái)作為主機(jī),哪一臺(tái)作為備機(jī)。因此,當(dāng)兩臺(tái)機(jī)器同時(shí)啟動(dòng)的時(shí)候,就會(huì)造成HACMP服務(wù)運(yùn)行“混亂”,結(jié)果當(dāng)一臺(tái)小型機(jī)發(fā)生故障時(shí),另外一臺(tái)小型機(jī)不能進(jìn)行自動(dòng)接管,不能真正達(dá)到雙機(jī)熱備的效果。

同樣地關(guān)機(jī)時(shí)也要嚴(yán)格按照關(guān)機(jī)順序,如果先關(guān)閉7133磁盤陣列時(shí),就有可能引發(fā)的數(shù)據(jù)丟失。這必須要引起大家在運(yùn)行維護(hù)中高度重視,否則的話,造成數(shù)據(jù)丟失,后果將是非常嚴(yán)重的。

1

二、定期查詢HACMP的運(yùn)行狀態(tài)
我們需要定期地查詢HACMP 雙機(jī)系統(tǒng)的狀態(tài),在雙機(jī)系統(tǒng)的運(yùn)行當(dāng)中,我們經(jīng)常需要知道雙機(jī)系統(tǒng)的當(dāng)前狀態(tài),才有可能對(duì)雙機(jī)系統(tǒng)出現(xiàn)的異常情況進(jìn)行恢復(fù)處理,才能保證雙機(jī)系統(tǒng)的高可用性和高容錯(cuò)性。查詢HACMP 雙機(jī)系統(tǒng)的狀態(tài)只需以root 用戶進(jìn)入需要查詢的節(jié)點(diǎn)進(jìn)行下列操作:

首先檢查HACMP 雙機(jī)軟件在該節(jié)點(diǎn)是否已啟動(dòng)命令如下。
# lssrc -g cluster

若是系統(tǒng)顯示出下面類似的信息則說明HACMP 雙機(jī)軟件已正常啟動(dòng)。
Subsystem Group PID Status
clstrmgr cluster 22500 active
clsmuxpd cluster 23674 active
clinfo cluster 28674 active

在已確認(rèn)雙機(jī)軟件HACMP 正常啟動(dòng)的情況下在命令行執(zhí)行下述命令來察看雙機(jī)系統(tǒng)的當(dāng)前狀態(tài)。
# /usr/sbin/cluster/clstat -a

HACMP運(yùn)行時(shí)只去檢測(cè)網(wǎng)卡、網(wǎng)絡(luò)和節(jié)點(diǎn)是否發(fā)生故障,并作出相應(yīng)的轉(zhuǎn)移、接管行為。對(duì)于其他故障,那么HACMP缺省不作任何動(dòng)作。對(duì)于雙機(jī)熱備時(shí)出現(xiàn)硬盤控制卡和應(yīng)用故障處理方法,一般是結(jié)合AIX基本功能和HACMP提供的一些機(jī)制,如Error Notification Facility, clinfo API 等,同樣可以實(shí)現(xiàn)對(duì)故障的監(jiān)控并采取相應(yīng)措施。

如果用戶的應(yīng)用有kernel call調(diào)用,或以root身份來啟動(dòng)等,一旦應(yīng)用發(fā)生故障,很容易導(dǎo)致AIX操作系統(tǒng)down掉,發(fā)生死機(jī)。這時(shí)實(shí)際上等于節(jié)點(diǎn)故障,HACMP會(huì)采取相應(yīng)接管措施。如果只是應(yīng)用自身死掉,AIX仍正常運(yùn)行,HACMP最多利用Error Notification Facility來提供監(jiān)控功能,對(duì)應(yīng)用本身不采取任何動(dòng)作。

但如果應(yīng)用中調(diào)用了AIX的SRC (System Resource Controller)機(jī)制所提供的API接口,就可以使應(yīng)用在down掉后自動(dòng)重新啟動(dòng)。除了SRC提供API接口外,HACMP中的clinfo也提供這樣的API。clinfo是cluster Information daemon,它負(fù)責(zé)維護(hù)整個(gè)cluster的狀態(tài)的信息,clinfo API允許應(yīng)用程序利用這些狀態(tài)信息來采取相應(yīng)行動(dòng)。

1

熱詞搜索:

上一篇:VLAN的無線接入
下一篇:征文:四大要點(diǎn)管理維護(hù)雙機(jī)熱備系統(tǒng) 下

分享到: 收藏
主站蜘蛛池模板: 荔波县| 城口县| 阿拉善盟| 陈巴尔虎旗| 乌审旗| 弥勒县| 同江市| 石阡县| 涟水县| 镇平县| 荥经县| 子洲县| 江孜县| 四川省| 麻栗坡县| 宜兰市| 微博| 信宜市| 白玉县| 绥滨县| 北流市| 和田市| 铁岭市| 常宁市| 贵阳市| 长白| 饶阳县| 许昌市| 沅江市| 治县。| 会同县| 克山县| 交城县| 浦东新区| 扎兰屯市| 陕西省| 阿克苏市| 武义县| 衡山县| 乐业县| 湛江市|