一文搞定項(xiàng)目故障等級劃分及管理機(jī)制「大元子說」
故障定義
1、影響功能正常使用的現(xiàn)象(服務(wù)中斷、服務(wù)質(zhì)量下降),服務(wù)不能執(zhí)行規(guī)定功能的狀態(tài)
2、用戶反饋的大面積線上體驗(yàn)問題
上述定義是理論層面的,實(shí)際工作中,會根據(jù)故障評分定級模型對線上問題進(jìn)行分值定級考量,從五大維度進(jìn)行評估:受影響業(yè)務(wù)功能、影響范圍、影響量級、影響時長和受影響業(yè)務(wù)個數(shù),根據(jù)維度對應(yīng)的權(quán)重比例進(jìn)行評分加權(quán)求和,分值大于40分的線上問題則定義為故障,線上問題一般通過以下方式獲?。焊黝惐O(jiān)控系統(tǒng)、全國運(yùn)營POC反饋渠道、SSC對接群。
連鎖故障:由于正反饋循環(huán)(positive feeDBAck)導(dǎo)致的不斷擴(kuò)大規(guī)模的故障。例如;某個服務(wù)的一個實(shí)例由于過載出現(xiàn)故障,導(dǎo)致其他實(shí)例負(fù)載升高,從而導(dǎo)致這些實(shí)例向多米諾骨牌一樣一個一個出現(xiàn)故障
故障級別
1.緊急故障A
- 網(wǎng)絡(luò)、應(yīng)用服務(wù)器、數(shù)據(jù)庫服務(wù)器宕機(jī),造成EBS無法作業(yè)超過20分鐘。
- 系統(tǒng)崩潰,用戶無法讀取數(shù)據(jù)超過20分鐘
2.嚴(yán)重故障B
- EBS口傳遞數(shù)據(jù)錯誤或者緩慢,導(dǎo)致EBS業(yè)務(wù)無法使用超過1小時;
- 與結(jié)算相關(guān)接口錯誤引起的重復(fù)付款,與賬務(wù)相關(guān)程序創(chuàng)建錯誤,賬務(wù)錯亂
3.一般故障C、D
- 由于數(shù)據(jù)或者設(shè)置原因引起的會計科目創(chuàng)建不成功
- 日記賬無法過賬
- 請求運(yùn)行緩慢,導(dǎo)致賬務(wù)延遲生產(chǎn)超過2小時
4.輕微故障E
- 操作錯誤,職責(zé)應(yīng)用不正確導(dǎo)致報表無法提取
- 請求參數(shù)異常,提取數(shù)據(jù)正確
- 報表錯誤或格式修改
故障報告字段
故障報告內(nèi)容包含5個方面:故障描述、故障影響、故障原因、事件過程、改進(jìn)措施;
涉及的主要字段如下:
故障現(xiàn)象
故障發(fā)生時的業(yè)務(wù)表現(xiàn)
故障時間
1、 發(fā)現(xiàn)時長(分)=故障報警(內(nèi)外部用戶報障)-故障發(fā)生時間(大部分是上線/變更時間)原則上:如報警發(fā)現(xiàn),則幾乎為零。如果是用戶投訴,時間較長。針對超過5分鐘則單獨(dú)備注。
2、 故障組響應(yīng)時長(分)=故障組響應(yīng)時間-故障發(fā)現(xiàn)時間
3、 業(yè)務(wù)響應(yīng)時長(分)=業(yè)務(wù)響應(yīng)時間-故障發(fā)現(xiàn)時間
4、 根因定位時長(分)=根因定位時間-業(yè)務(wù)響應(yīng)時間
5、 故障處理時長(分)=故障止損時間-業(yè)務(wù)響應(yīng)時間
6、 故障持續(xù)時長(分)=服務(wù)影響時長(分)=故障止損時間-故障發(fā)生時間
7、 故障上報時長(分)=故障上報時間-發(fā)現(xiàn)時間
注:持續(xù)時長未超過5分鐘的線上問題不記為故障
發(fā)現(xiàn)方式
1、人工上報-用戶反饋,2、人工上報-內(nèi)部反饋,3、監(jiān)控報警-故障組報障,4、監(jiān)控報警- RD發(fā)現(xiàn)
故障歸類
故障原因從三個角度進(jìn)行描述
1、根本原因:導(dǎo)致故障發(fā)生的最本質(zhì)原因,對故障起到關(guān)鍵作用、決定作用的原因
2、觸發(fā)原因:導(dǎo)致故障發(fā)生的導(dǎo)火線,直接誘發(fā)故障發(fā)生原因,或是什么動作造成故障的產(chǎn)生
3、延長原因:故障處理時長超過30min的原因
根據(jù)故障原因的不同,對根本原因和觸發(fā)原因進(jìn)行歸類,類別如下:
6大類:變更類、容量/性能類、安全類、第三方、代碼類、設(shè)計類
18小類:有變更與無變更兩類
1、角色
變更類—運(yùn)維變更(SRE)、網(wǎng)絡(luò)變更、數(shù)據(jù)庫變更(DBA)、配置變更、數(shù)據(jù)變更(業(yè)務(wù))、上線/下線發(fā)布、上云變更(容器)、代碼變更
設(shè)計類—
非變更類—容量/性能類、安全類、第三方、代碼類、設(shè)計類
2、過程
變更:方案階段、測試階段、上線階段、驗(yàn)收階段
無過程
3、細(xì)類
變更-方案階段-系統(tǒng)設(shè)計不合理
變更-方案階段-應(yīng)急預(yù)案不足
變更-方案階段-服務(wù)混部不合理
變更-方案階段-方案評審不足
變更-方案階段-方案缺失
變更-方案階段-方案評審缺失
根本原因大類-小類
變更類-運(yùn)維變更-線上誤操作
1、變更類-運(yùn)維變更:因?yàn)檫\(yùn)維變更(無論任何形式的變更)觸發(fā)的故障
2、變更類-線上誤操作:對線上環(huán)境進(jìn)行誤刪除、kill之類的操作導(dǎo)致的故障
3、變更類-變更流程不規(guī)范:變更的流程存在隱患,有導(dǎo)致故障發(fā)生的風(fēng)險;或變更本身流程無問題,進(jìn)行變更時未按照流程進(jìn)行
4、變更類-數(shù)據(jù)變更:業(yè)務(wù)方由于數(shù)據(jù)修改或者數(shù)據(jù)導(dǎo)入引發(fā)的故障,不包括運(yùn)維的數(shù)據(jù)變更
5、變更類-配置變更:業(yè)務(wù)方由于修改配置(界面配置非配置文件)而導(dǎo)致的故障,除去運(yùn)維類的配置變更類
6、容量/性能-非資源類:性能問題,可通過參數(shù)調(diào)整、邏輯優(yōu)化等措施避免
7、容量/性能-資源類:需資源擴(kuò)容才可根治,或資源提供方使用不當(dāng)導(dǎo)致的故障
8、代碼類-代碼邏輯類:代碼邏輯問題、代碼bug引發(fā)的故障
9、代碼類-代碼性能類:代碼不健壯
10、安全類-網(wǎng)絡(luò)爬蟲:爬蟲導(dǎo)致的
11、安全類-Ddos攻擊:惡意攻擊系統(tǒng)
12、第三方-硬件故障:任何硬件非人為原因損壞 導(dǎo)致的故障
13、第三方-配置問題:第三方配置修改導(dǎo)致的
14、第三方-軟件故障:技術(shù)架構(gòu)中用到的任何OS,軟件在特殊場景下,BUG被觸發(fā)導(dǎo)致故障;第三方提供的服務(wù)故障
15、第三方-局方故障:ISP,根域服務(wù),IP被封等外部單位故障導(dǎo)致的問題(局方:運(yùn)營商)
16、設(shè)計類-系統(tǒng)設(shè)計不合理:代碼不健壯,可以通過參數(shù)調(diào)整,邏輯優(yōu)化等措施避免
14、設(shè)計類-版本不兼容:系統(tǒng)底層架構(gòu)不統(tǒng)一,在升級過程中或新版本與老版本不兼容導(dǎo)致問題出現(xiàn)
15、設(shè)計類-配置不當(dāng):配置有隱患,后期因其他因素觸發(fā)導(dǎo)致故障
16、設(shè)計類-應(yīng)急預(yù)案不足:系統(tǒng)底層架構(gòu)不統(tǒng)一,在升級過程中或新版本與老版本不兼容導(dǎo)致問題出現(xiàn)
17、設(shè)計類-服務(wù)混部不合理:服務(wù)混合部署不合理
18、設(shè)計類-技術(shù)方案評審不足:方案執(zhí)行前,評審不到位
觸發(fā)原因常見歸類:變更類、流量類或其他
故障級別
故障根據(jù)不同的分值劃分為A、B、C、D、E五個等級,其中
1、重大故障:故障級別為A級的故障,分值>85分
2、嚴(yán)重故障:故障級別為B級的故障,75分<分值≤85分
3、一般故障:故障級別為C、D級的故障,40分<分值≤75分
4、E級(<40分)不記為故障,只做一般問題記錄
責(zé)任部門
原則
1、依據(jù)根本原因和觸發(fā)原因劃分,
a、若因流量增加觸發(fā)故障,流量增加超過3倍(原來x,現(xiàn)在3x),追責(zé)觸發(fā)原因部門
2、責(zé)任部門盡量唯一,最多不超過2個
3、非qa直接導(dǎo)致的故障(如上線流程、上線工具等),不建議列入qa。對qa考核時,可參看其所負(fù)責(zé)的模塊故障情況
分類
根據(jù)根本原因分類,責(zé)任部門定義如下:
1、機(jī)器宕機(jī)、操作系統(tǒng)類故障——機(jī)器所在部門;
2、代碼bug類故障——代碼服務(wù)所在部門;
服務(wù):WEB服務(wù)、數(shù)據(jù)庫服務(wù)、給應(yīng)用系統(tǒng)提供的基礎(chǔ)服務(wù)等
3、應(yīng)用系統(tǒng)類bug、系統(tǒng)使用第三方、開源軟件類bug——系統(tǒng)所在部門
4、變更類故障——變更方所在部門
5、第三方故障——追責(zé)引入第三方付費(fèi)服務(wù)的部門,強(qiáng)依賴第三方服務(wù)部門無有效止損措施控制故障影響面的擴(kuò)大,同樣追責(zé)
改進(jìn)措施
在故障報告整理好后,我們會組織復(fù)盤會針對故障中出現(xiàn)的問題分析討論,從預(yù)防和治理的角度提出優(yōu)化方案
1、所提改進(jìn)措施要對應(yīng)到具體人,并明確完成時間
2、如果所提改進(jìn)措施耗時較長,超過1個月則需進(jìn)行拆分,按照時間階段記錄
3、改進(jìn)措施任務(wù)類型:預(yù)防、流程、緩解、降級、演習(xí)、原因排查等
近期熱文:一文搞定項(xiàng)目故障等級劃分及管理機(jī)制【大元子說】
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實(shí),本站將立刻刪除。