• <ul id="mayc0"></ul>
    <ul id="mayc0"><center id="mayc0"></center></ul>
    <strike id="mayc0"><input id="mayc0"></input></strike>
    <ul id="mayc0"></ul>
  • 億恩科技有限公司旗下門戶資訊平臺!
    服務(wù)器租用 4元建網(wǎng)站

    服務(wù)器出現(xiàn)這幾種異常一定要重視

    提到服務(wù)器宕機(jī)檢測,大家會想到,宕機(jī)能夠很快知道,這個有什么可做的?實(shí)際上,很多時候服務(wù)器宕機(jī),并不總是被及時感知。

    提到服務(wù)器宕機(jī)檢測,大家會想到,宕機(jī)能夠很快知道,這個有什么可做的?實(shí)際上,很多時候服務(wù)器宕機(jī),并不總是被及時感知。服務(wù)器宕機(jī),ping或者ssh這是最簡單的做法,但真正的工程實(shí)踐,沒這么簡單。

    想要獲知服務(wù)器宕機(jī)怎么辦?可以通過服務(wù)器宕機(jī)實(shí)時檢測:

    1)發(fā)現(xiàn)宕機(jī)。

    2)提前告警。

    3)告知宕機(jī)的詳細(xì)原因,如硬件故障,內(nèi)核bug,網(wǎng)絡(luò)異常等等。

    4)自動報修生成工單。

    我們知道,進(jìn)行全網(wǎng)物理機(jī)宕機(jī)準(zhǔn)確探測與實(shí)時發(fā)現(xiàn),可以給宕機(jī)分析提供第一現(xiàn)場,獲取第一現(xiàn)場的日志。也可以盡早將宕機(jī)數(shù)據(jù)推送給業(yè)務(wù)或運(yùn)營感知并處理,如自動報修,業(yè)務(wù)遷移等,從而盡可能將業(yè)務(wù)影響降到最低。

    更重要的是,準(zhǔn)確的宕機(jī)發(fā)現(xiàn)數(shù)據(jù)可以為宕機(jī)預(yù)測提供準(zhǔn)確的標(biāo)注數(shù)據(jù),為后期宕機(jī)預(yù)測提供數(shù)據(jù)基礎(chǔ),并且這些數(shù)據(jù)提供給運(yùn)營部門進(jìn)行整體分析,提升處理效率。

    那么,如何可以準(zhǔn)確發(fā)現(xiàn)宕機(jī),減少誤報呢?我們可以有以下操作,比如:

    心跳源檢測異常

    顧名思義,通過心跳源,初步發(fā)現(xiàn)異常。通常心跳變化會有三類消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務(wù)端與NC建立長連接,每數(shù)秒緩存一次心跳,每幾分鐘打包上報一次,但當(dāng)NC異常時,長連接感知后,立即上報異常,并修改路由表。所以心跳異常做到秒級感知。

    update消息,在有心跳發(fā)生變化情況下都會有,心跳異常和心跳恢復(fù)正常時都會發(fā)起,是主要的心跳來源。

    delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長。

    insert消息,在新增加機(jī)器, 或者重裝后重新上位的機(jī)器發(fā)起,該消息對宕機(jī)發(fā)現(xiàn)價值不大,配合uptime使用。

    心跳源檢測任務(wù)邏輯,主要是監(jiān)聽并緩存uptime消息,同時避免時間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。

    服務(wù)器“異常”的幾個可能性預(yù)警請重視!

    異常排除

    排除非物理機(jī)器,將系統(tǒng)中暫時不關(guān)注的VM等產(chǎn)生的異常信息排除掉。

    排除非業(yè)務(wù)狀態(tài)的機(jī)器,如裝機(jī)狀態(tài)中的,包括生產(chǎn)中,維修中,遷移中,重裝中,銷毀中,重啟中,無管控狀態(tài),只監(jiān)控正常狀態(tài)的機(jī)器。

    排除非正在工作的機(jī)器,如非working狀態(tài)機(jī)器。

    網(wǎng)絡(luò)干擾排除

    宕機(jī)分析中,較多誤報是由于網(wǎng)絡(luò)問題干擾,無法準(zhǔn)確判斷出物理機(jī)是否宕機(jī),有可能是網(wǎng)絡(luò)問題。

    排除上聯(lián)網(wǎng)絡(luò)設(shè)備異常導(dǎo)致的誤報,包括機(jī)房斷網(wǎng)演練,小面積網(wǎng)絡(luò)故障,上聯(lián)網(wǎng)絡(luò)故障,如通過探測丟包情況,使用一些邏輯初步判斷網(wǎng)絡(luò)問題。

    服務(wù)器本身未丟包的誤報,除了需要過濾出網(wǎng)絡(luò)問題,還要通過丟包數(shù)據(jù)分析,過濾掉SA誤報問題, SA異常會上報心跳異常,被誤理解為宕機(jī)。

    icmp及tcp丟包分析,icmp采集頻率為固定數(shù)秒,tcp采集頻率固定數(shù)秒,包括多個不同大小包(16,32,64,128,256等)的丟包情況,根據(jù)分析時間窗內(nèi)兩項(xiàng)數(shù)據(jù)的丟包情況

    特殊情況干擾排除

    個別機(jī)房有時候會出現(xiàn)大面積風(fēng)暴式的無故心跳異常,同時網(wǎng)絡(luò)ping包異常,但上聯(lián)網(wǎng)絡(luò)設(shè)備ping包正常,這種誤報,一般根據(jù)具體case具體進(jìn)行針對性的分析。如根據(jù)監(jiān)控每個機(jī)房的上報頻率,排除干擾。

    進(jìn)一步識別誤報

    至此,大部分干擾已經(jīng)過濾掉,但仍有一部分誤報隱藏其中。比如心跳異常,ping異常,都合乎宕機(jī)判斷的邏輯,會導(dǎo)致誤判成宕機(jī),如導(dǎo)致網(wǎng)卡被打爆,或者重試率高,這種是業(yè)務(wù)原因?qū)е戮W(wǎng)絡(luò)異常,但業(yè)務(wù)認(rèn)為不是異常,需要排除掉。再例如服務(wù)器并沒有掛掉,但是IO延時和資源占用率各項(xiàng)指標(biāo)都不正常等場景。針對以上等情況,增加uptime判斷以及帶外日志分析排查。

    宕機(jī)時間點(diǎn)探測uptime確定是否發(fā)生重啟。

    進(jìn)一步通過分析日志是否連續(xù),判斷是否發(fā)生重啟。

    日志重啟特征值匹配,確認(rèn)是否發(fā)生重啟。

    如果還不能確定,使用uptime的時間窗技術(shù)進(jìn)行重啟。

    仍不能確定的待處理,進(jìn)入長尾處理名單。

    長尾再次處理

    未確認(rèn)的待處理的,會加入到長尾列表中,像這種分鐘級的心跳異常,ping異常,但串口日志一直正常輸出的情況,一般就是某種死機(jī),死到連網(wǎng)絡(luò)都不通的場景。會觀察一段時間,一個固定時間窗內(nèi)仍未恢復(fù)或重啟的話,就暫時報宕機(jī)。后期會把這種死機(jī)單獨(dú)找劃分歸類。

    講了這么多,到底效果怎么樣?

    我們從準(zhǔn)確率和覆蓋率來看:

    準(zhǔn)確率:目前發(fā)現(xiàn)的宕機(jī)中有很高準(zhǔn)確度,可以區(qū)分出真正宕機(jī)或者未宕機(jī)。而判斷為宕機(jī)的數(shù)據(jù)中,也存在少量的,由于缺少相關(guān)信息導(dǎo)致誤報,該部分將進(jìn)一步優(yōu)化,逐漸降低誤報,在新的措施之后,該比例會接近0。

    覆蓋率:當(dāng)前統(tǒng)計的覆蓋率已經(jīng)能很好的支撐日常宕機(jī)處理,該數(shù)據(jù)在有足夠的特征后,會進(jìn)一步提升。

    目前,宕機(jī)感知是宕機(jī)分析的基礎(chǔ),通過服務(wù)器宕機(jī)實(shí)時檢測,會把相應(yīng)的宕機(jī)原因分布整理出來,明確具體的原因,達(dá)成服務(wù)器極致可靠性。

    河南億恩科技股份有限公司(www.vbseamall.com)始創(chuàng)于2000年,專注服務(wù)器托管租用,是國家工信部認(rèn)定的綜合電信服務(wù)運(yùn)營商。億恩為近五十萬的用戶提供服務(wù)器托管、服務(wù)器租用、機(jī)柜租用、云服務(wù)器、網(wǎng)站建設(shè)、網(wǎng)站托管等網(wǎng)絡(luò)基礎(chǔ)服務(wù),另有網(wǎng)總管、名片俠網(wǎng)絡(luò)推廣服務(wù),使得客戶不斷的獲得更大的收益。
    服務(wù)器/云主機(jī) 24小時售后服務(wù)電話:0371-60135900
    虛擬主機(jī)/智能建站 24小時售后服務(wù)電話:0371-55621053
    網(wǎng)絡(luò)版權(quán)侵權(quán)舉報電話:0371-60135995
    服務(wù)熱線:0371-60135900

    標(biāo)簽 服務(wù)器
    0
    0
    分享到:責(zé)任編輯:會會

    相關(guān)推介

    共有:0條評論網(wǎng)友評論:

    驗(yàn)證碼 看不清換一張 換一張

    親,還沒評論呢!速度搶沙發(fā)吧!