Severity Levels
インシデント対応の最初のステップは、実際に インシデントがなにから構成されるのか を定めることです。インシデントは、通常「SEV」の定義を用いた重大度(Serverity)によって分類され、数字の小さな重大度であるほど緊急性の高いものとされます。運用上の問題はこれらの重大度のレベルによって分類でき、一般的には重大度の高い問題であるほど、解決するためならばリスクの高いアクションを取れます。SEV-3よりも高い重大度のものは自動的に「重大インシデント」と考えられ、通常のインシデントよりも集中した対応が行われます。
常に最悪のケースを想定すること
インシデントの重大度の判断がつかないとき(SEV-2にすべきかSEV-1にすべきかなど)は、 高いほうの重大度のものとして扱いましょう。インシデント発生中は重大度を議論したり争ったりしている場合ではなく、いったんその時点で最も高い重大度を想定しておき、ポストモーテムの際にレビューすればよいのです。
SEV-3は重大インシデントになりうるか?
すべてのSEV-2は重大インシデントですが、すべての重大インシデントがSEV-2である必要はありません。たとえ低い重大度の問題であっても、協調的な対応が必要なのであれば、インシデント対応プロセスを開始しましょう。完全形のインシデント対応が必要とされるかどうか、インシデントコマンダーが判断できるでしょう。
重大度(Severity) | 内容 | 一般的な対応 |
---|---|---|
SEV-1 |
社外に向けた公表と経営陣との連携が求められる重大な問題
|
重大インシデント対応
|
SEV-2 |
システムに致命的な問題が発生し、プロダクトを利用する上で多くの顧客が影響を受けている状態
|
重大インシデント対応
|
このラインから上は、すべて「重大インシデント」と判断されます。私たちのインシデント対応プロセスは、あらゆる重大インシデントに対して開始されます。 | ||
SEV-3 |
安定性の問題や顧客影響の小さな問題で、サービスオーナーへ直ちに伝える必要があるもの。
|
優先度高(High Urgency)でのサービスチームへの通知
|
SEV-4 |
アクションを要する軽微な問題があるが、プロダクトを利用する上で顧客が影響を受けていない状態
|
優先度低(Low Urgency)でのサービスチームへの通知
|
SEV-5 |
見た目の問題やバグで、顧客がプロダクトを利用する上での支障はない状態
|
JIRAチケットの起票
|
具体的にすることが大事
これらの重大度の定義は、PagerDutyの内部的な定義をより一般化したものです。あなた自身のドキュメンテーションにおいては、影響を受けたユーザーや顧客数など、きわめて具体的な定義にすることをお勧めします。重大度は通常、指標に基づいて判断できるように定義したいものです。