一、檢查事件日志輸出
服務(wù)器的日志中記錄著豐富的信息,尤其是細(xì)節(jié)問題。如果沒有仔細(xì)審查系統(tǒng)日志,惡意軟件日志和其他日志,服務(wù)器維護(hù)是不完整的。當(dāng)然,關(guān)鍵的系統(tǒng)問題應(yīng)該引起IT管理員和技術(shù)人員注意,但也有無數(shù)的非關(guān)鍵問題,可能是慢性或嚴(yán)重問題的信號(hào)。
如果你在維護(hù)服務(wù)器,那么請(qǐng)檢查報(bào)告設(shè)置,并驗(yàn)證告警與告警接收人地址正確。例如,如果某個(gè)技術(shù)人員離開服務(wù)器組,你需要更新服務(wù)器的報(bào)告系統(tǒng)。雙重檢查聯(lián)系名單和聯(lián)系方式也很重要,僅僅將關(guān)鍵錯(cuò)誤報(bào)告發(fā)送到技術(shù)人員公司電子郵箱地址是完全不夠的,需要確保其在非工作時(shí)間也能聯(lián)系的上。
二、檢查本地硬盤
許多服務(wù)器依賴內(nèi)部硬盤,用于承載工作量和存儲(chǔ),保存用戶數(shù)據(jù)以及其他功能。硬盤介質(zhì)出現(xiàn)問題會(huì)嚴(yán)重影響負(fù)載性能和穩(wěn)定性,最終會(huì)導(dǎo)致硬盤故障。
磁盤介質(zhì)是不完美的,常見問題包括壞道和碎片化。RAID可以比較穩(wěn)定地確保出現(xiàn)磁盤故障時(shí)數(shù)據(jù)穩(wěn)定與一致性,但更小型的服務(wù)器,如1U的機(jī)架式服務(wù)器可能無法提供足夠的空間來實(shí)施RAID。使用如CHKDSK(Check Disk)這樣的工具來檢查硬盤完整性,還可以嘗試修復(fù)其中損壞的扇區(qū)。
三、定期安裝補(bǔ)丁與更新
服務(wù)器軟件BIOS、操作系統(tǒng)、虛擬機(jī)管理程序、驅(qū)動(dòng)程序、應(yīng)用程序、支持工具--必須確保所有互動(dòng)與協(xié)作。不幸的是,軟件代碼很少完美或沒有任何問題,所以此類軟件問題需要經(jīng)常通過修補(bǔ)或更新來修復(fù)錯(cuò)誤、提高安全性、簡(jiǎn)化操作性、提高性能等。
不是所有軟件都可以自動(dòng)更新,管理員需要確認(rèn)哪些補(bǔ)丁或升級(jí)包是必要的,然后評(píng)估和測(cè)試更新效果。如果更新包修復(fù)的是服務(wù)器不存在的問題,那么無須多此一舉冒這個(gè)險(xiǎn)。
四、確保服務(wù)器除塵作業(yè)已好
一旦服務(wù)器關(guān)機(jī),目視檢查其內(nèi)部和外部的空氣流動(dòng)路徑。清除任何積累的灰塵和雜物,確保冷卻空氣通行順暢。
從外部空氣出入口開始,然后繼續(xù)到系統(tǒng)機(jī)箱CPU散熱器和風(fēng)扇組件,內(nèi)存模塊和所有冷卻風(fēng)扇葉片與風(fēng)道路徑。防靜電工作區(qū)用清潔、干燥的壓縮空氣去除塵和碎屑。不要在機(jī)架中清潔服務(wù)器。
五、堅(jiān)持例行維護(hù)
服務(wù)器管理員往往忽視計(jì)劃好的例行維護(hù)。不要等到實(shí)際出現(xiàn)故障才進(jìn)行維護(hù),預(yù)留時(shí)間進(jìn)行日常維護(hù)可以防止問題。
維護(hù)頻率取決于設(shè)備年齡、數(shù)據(jù)中心環(huán)境、待維護(hù)的服務(wù)器容量和其他因素。例如,放置在設(shè)備間的舊設(shè)備會(huì)比放置在配有HEPA過濾器、良好冷卻設(shè)施數(shù)據(jù)中心里的設(shè)備需要更頻繁的檢查。組織可以根據(jù)供應(yīng)商或第三方的例行巡檢策略來安排日常維護(hù)表,比如,在合同中約定每4個(gè)月或6個(gè)月檢查,那就按該時(shí)間表執(zhí)行。