1.異常信息檢測(cè)
update消息,主要是監(jiān)聽(tīng)并緩存uptime消息,同時(shí)避免時(shí)間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。
delete消息,通過(guò)SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長(zhǎng)。
insert消息,在新增加機(jī)器, 或者重裝后重新上位的機(jī)器發(fā)起,該消息對(duì)宕機(jī)發(fā)現(xiàn)價(jià)值不大,配合uptime使用。
2.網(wǎng)絡(luò)異常檢測(cè)
服務(wù)器較多誤報(bào)是由于網(wǎng)絡(luò)問(wèn)題干擾,無(wú)法準(zhǔn)確判斷出物理機(jī)是否宕機(jī),有可能是網(wǎng)絡(luò)問(wèn)題。
排除上聯(lián)網(wǎng)絡(luò)設(shè)備異常導(dǎo)致的誤報(bào),包括機(jī)房斷網(wǎng)演練,小面積網(wǎng)絡(luò)故障,上聯(lián)網(wǎng)絡(luò)故障,如通過(guò)探測(cè)丟包情況,使用一些邏輯初步判斷網(wǎng)絡(luò)問(wèn)題。
服務(wù)器本身未丟包的誤報(bào),除了需要過(guò)濾出網(wǎng)絡(luò)問(wèn)題,還要通過(guò)丟包數(shù)據(jù)分析,過(guò)濾掉SA誤報(bào)問(wèn)題, SA異常會(huì)上報(bào)心跳異常,被誤理解為宕機(jī)。
3.服務(wù)器異常信息檢測(cè)
個(gè)別機(jī)房有時(shí)候會(huì)出現(xiàn)大面積風(fēng)暴式的無(wú)故的信息異常,同時(shí)網(wǎng)絡(luò)ping包異常,但上聯(lián)網(wǎng)絡(luò)設(shè)備ping包正常,這種誤報(bào),一般根據(jù)具體case具體進(jìn)行針對(duì)性的分析。如根據(jù)監(jiān)控每個(gè)機(jī)房的上報(bào)頻率,排除干擾。
4.ping檢測(cè)
大部分干擾已經(jīng)過(guò)濾掉,但仍有一部分誤報(bào)隱藏其中。比如ping異常,都合乎宕機(jī)判斷的邏輯,會(huì)導(dǎo)致誤判成宕機(jī),如導(dǎo)致網(wǎng)卡被打爆,或者重試率高,這種是業(yè)務(wù)原因?qū)е戮W(wǎng)絡(luò)異常,但業(yè)務(wù)認(rèn)為不是異常,需要排除掉。
再例如服務(wù)器并沒(méi)有掛掉,但是IO延時(shí)和資源占用率各項(xiàng)指標(biāo)都不正常等場(chǎng)景。針對(duì)以上等情況,增加uptime判斷以及帶外日志分析排查。