亚洲熟妇av一区二区三区,久久久久久精品观看sss,免费观看四虎精品国产永久,国产成人精品一区二三区熟女,天堂网在线最新版www资源网

一文搞定項目故障等級劃分及管理機制「大元子說」

故障定義

1、影響功能正常使用的現(xiàn)象(服務(wù)中斷、服務(wù)質(zhì)量下降),服務(wù)不能執(zhí)行規(guī)定功能的狀態(tài)

2、用戶反饋的大面積線上體驗問題

上述定義是理論層面的,實際工作中,會根據(jù)故障評分定級模型對線上問題進行分值定級考量,從五大維度進行評估:受影響業(yè)務(wù)功能、影響范圍、影響量級、影響時長和受影響業(yè)務(wù)個數(shù),根據(jù)維度對應(yīng)的權(quán)重比例進行評分加權(quán)求和,分值大于40分的線上問題則定義為故障,線上問題一般通過以下方式獲取:各類監(jiān)控系統(tǒng)、全國運營POC反饋渠道、SSC對接群。

連鎖故障:由于正反饋循環(huán)(positive feeDBAck)導(dǎo)致的不斷擴大規(guī)模的故障。例如;某個服務(wù)的一個實例由于過載出現(xiàn)故障,導(dǎo)致其他實例負載升高,從而導(dǎo)致這些實例向多米諾骨牌一樣一個一個出現(xiàn)故障

故障級別

1.緊急故障A

  • 網(wǎng)絡(luò)、應(yīng)用服務(wù)器、數(shù)據(jù)庫服務(wù)器宕機,造成EBS無法作業(yè)超過20分鐘。
  • 系統(tǒng)崩潰,用戶無法讀取數(shù)據(jù)超過20分鐘

2.嚴重故障B

  • EBS口傳遞數(shù)據(jù)錯誤或者緩慢,導(dǎo)致EBS業(yè)務(wù)無法使用超過1小時;
  • 與結(jié)算相關(guān)接口錯誤引起的重復(fù)付款,與賬務(wù)相關(guān)程序創(chuàng)建錯誤,賬務(wù)錯亂

3.一般故障C、D

  • 由于數(shù)據(jù)或者設(shè)置原因引起的會計科目創(chuàng)建不成功
  • 日記賬無法過賬
  • 請求運行緩慢,導(dǎo)致賬務(wù)延遲生產(chǎn)超過2小時

4.輕微故障E

  • 操作錯誤,職責(zé)應(yīng)用不正確導(dǎo)致報表無法提取
  • 請求參數(shù)異常,提取數(shù)據(jù)正確
  • 報表錯誤或格式修改

一文搞定項目故障等級劃分及管理機制「大元子說」

故障報告字段

故障報告內(nèi)容包含5個方面:故障描述、故障影響、故障原因、事件過程、改進措施;

涉及的主要字段如下:

故障現(xiàn)象

故障發(fā)生時的業(yè)務(wù)表現(xiàn)

故障時間

1、 發(fā)現(xiàn)時長(分)=故障報警(內(nèi)外部用戶報障)-故障發(fā)生時間(大部分是上線/變更時間)原則上:如報警發(fā)現(xiàn),則幾乎為零。如果是用戶投訴,時間較長。針對超過5分鐘則單獨備注。

2、 故障組響應(yīng)時長(分)=故障組響應(yīng)時間-故障發(fā)現(xiàn)時間

3、 業(yè)務(wù)響應(yīng)時長(分)=業(yè)務(wù)響應(yīng)時間-故障發(fā)現(xiàn)時間

4、 根因定位時長(分)=根因定位時間-業(yè)務(wù)響應(yīng)時間

5、 故障處理時長(分)=故障止損時間-業(yè)務(wù)響應(yīng)時間

6、 故障持續(xù)時長(分)=服務(wù)影響時長(分)=故障止損時間-故障發(fā)生時間

7、 故障上報時長(分)=故障上報時間-發(fā)現(xiàn)時間

注:持續(xù)時長未超過5分鐘的線上問題不記為故障

發(fā)現(xiàn)方式

1、人工上報-用戶反饋,2、人工上報-內(nèi)部反饋,3、監(jiān)控報警-故障組報障,4、監(jiān)控報警- RD發(fā)現(xiàn)

一文搞定項目故障等級劃分及管理機制「大元子說」

故障歸類

故障原因從三個角度進行描述

1、根本原因:導(dǎo)致故障發(fā)生的最本質(zhì)原因,對故障起到關(guān)鍵作用、決定作用的原因

2、觸發(fā)原因:導(dǎo)致故障發(fā)生的導(dǎo)火線,直接誘發(fā)故障發(fā)生原因,或是什么動作造成故障的產(chǎn)生

3、延長原因:故障處理時長超過30min的原因

根據(jù)故障原因的不同,對根本原因和觸發(fā)原因進行歸類,類別如下:

6大類:變更類、容量/性能類、安全類、第三方、代碼類、設(shè)計類

18小類:有變更與無變更兩類

1、角色

變更類—運維變更(SRE)、網(wǎng)絡(luò)變更、數(shù)據(jù)庫變更(DBA)、配置變更、數(shù)據(jù)變更(業(yè)務(wù))、上線/下線發(fā)布、上云變更(容器)、代碼變更

設(shè)計類—

非變更類—容量/性能類、安全類、第三方、代碼類、設(shè)計類

2、過程

變更:方案階段、測試階段、上線階段、驗收階段

無過程

3、細類

變更-方案階段-系統(tǒng)設(shè)計不合理

變更-方案階段-應(yīng)急預(yù)案不足

變更-方案階段-服務(wù)混部不合理

變更-方案階段-方案評審不足

變更-方案階段-方案缺失

變更-方案階段-方案評審缺失

根本原因大類-小類

變更類-運維變更-線上誤操作

1、變更類-運維變更:因為運維變更(無論任何形式的變更)觸發(fā)的故障

2、變更類-線上誤操作:對線上環(huán)境進行誤刪除、kill之類的操作導(dǎo)致的故障

3、變更類-變更流程不規(guī)范:變更的流程存在隱患,有導(dǎo)致故障發(fā)生的風(fēng)險;或變更本身流程無問題,進行變更時未按照流程進行

4、變更類-數(shù)據(jù)變更:業(yè)務(wù)方由于數(shù)據(jù)修改或者數(shù)據(jù)導(dǎo)入引發(fā)的故障,不包括運維的數(shù)據(jù)變更

5、變更類-配置變更:業(yè)務(wù)方由于修改配置(界面配置非配置文件)而導(dǎo)致的故障,除去運維類的配置變更類

6、容量/性能-非資源類:性能問題,可通過參數(shù)調(diào)整、邏輯優(yōu)化等措施避免

7、容量/性能-資源類:需資源擴容才可根治,或資源提供方使用不當(dāng)導(dǎo)致的故障

8、代碼類-代碼邏輯類:代碼邏輯問題、代碼bug引發(fā)的故障

9、代碼類-代碼性能類:代碼不健壯

10、安全類-網(wǎng)絡(luò)爬蟲爬蟲導(dǎo)致的

11、安全類-Ddos攻擊:惡意攻擊系統(tǒng)

12、第三方-硬件故障:任何硬件非人為原因損壞 導(dǎo)致的故障

13、第三方-配置問題:第三方配置修改導(dǎo)致的

14、第三方-軟件故障:技術(shù)架構(gòu)中用到的任何OS,軟件在特殊場景下,BUG被觸發(fā)導(dǎo)致故障;第三方提供的服務(wù)故障

15、第三方-局方故障:ISP,根域服務(wù),IP被封等外部單位故障導(dǎo)致的問題(局方:運營商)

16、設(shè)計類-系統(tǒng)設(shè)計不合理:代碼不健壯,可以通過參數(shù)調(diào)整,邏輯優(yōu)化等措施避免

14、設(shè)計類-版本不兼容:系統(tǒng)底層架構(gòu)不統(tǒng)一,在升級過程中或新版本與老版本不兼容導(dǎo)致問題出現(xiàn)

15、設(shè)計類-配置不當(dāng):配置有隱患,后期因其他因素觸發(fā)導(dǎo)致故障

16、設(shè)計類-應(yīng)急預(yù)案不足:系統(tǒng)底層架構(gòu)不統(tǒng)一,在升級過程中或新版本與老版本不兼容導(dǎo)致問題出現(xiàn)

17、設(shè)計類-服務(wù)混部不合理:服務(wù)混合部署不合理

18、設(shè)計類-技術(shù)方案評審不足:方案執(zhí)行前,評審不到位

觸發(fā)原因常見歸類:變更類、流量類或其他

故障級別

故障根據(jù)不同的分值劃分為A、B、C、D、E五個等級,其中

1、重大故障:故障級別為A級的故障,分值>85分

2、嚴重故障:故障級別為B級的故障,75分<分值≤85分

3、一般故障:故障級別為C、D級的故障,40分<分值≤75分

4、E級(<40分)不記為故障,只做一般問題記錄

責(zé)任部門

原則

1、依據(jù)根本原因和觸發(fā)原因劃分,

a、若因流量增加觸發(fā)故障,流量增加超過3倍(原來x,現(xiàn)在3x),追責(zé)觸發(fā)原因部門

2、責(zé)任部門盡量唯一,最多不超過2個

3、非qa直接導(dǎo)致的故障(如上線流程、上線工具等),不建議列入qa。對qa考核時,可參看其所負責(zé)的模塊故障情況

分類

根據(jù)根本原因分類,責(zé)任部門定義如下:

1、機器宕機、操作系統(tǒng)類故障——機器所在部門;

2、代碼bug類故障——代碼服務(wù)所在部門;

服務(wù):WEB服務(wù)、數(shù)據(jù)庫服務(wù)、給應(yīng)用系統(tǒng)提供的基礎(chǔ)服務(wù)等

3、應(yīng)用系統(tǒng)類bug、系統(tǒng)使用第三方、開源軟件類bug——系統(tǒng)所在部門

4、變更類故障——變更方所在部門

5、第三方故障——追責(zé)引入第三方付費服務(wù)的部門,強依賴第三方服務(wù)部門無有效止損措施控制故障影響面的擴大,同樣追責(zé)

改進措施

在故障報告整理好后,我們會組織復(fù)盤會針對故障中出現(xiàn)的問題分析討論,從預(yù)防和治理的角度提出優(yōu)化方案

1、所提改進措施要對應(yīng)到具體人,并明確完成時間

2、如果所提改進措施耗時較長,超過1個月則需進行拆分,按照時間階段記錄

3、改進措施任務(wù)類型:預(yù)防、流程、緩解、降級、演習(xí)、原因排查等

近期熱文:一文搞定項目故障等級劃分及管理機制【大元子說】

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。