Severity Levels

インシデント対応の最初のステップは、実際に インシデントがなにから構成されるのか を定めることです。インシデントは、通常「SEV」の定義を用いた重大度(Serverity)によって分類され、数字の小さな重大度であるほど緊急性の高いものとされます。運用上の問題はこれらの重大度のレベルによって分類でき、一般的には重大度の高い問題であるほど、解決するためならばリスクの高いアクションを取れます。SEV-3よりも高い重大度のものは自動的に「重大インシデント」と考えられ、通常のインシデントよりも集中した対応が行われます。

常に最悪のケースを想定すること

インシデントの重大度の判断がつかないとき(SEV-2にすべきかSEV-1にすべきかなど)は、 高いほうの重大度のものとして扱いましょう。インシデント発生中は重大度を議論したり争ったりしている場合ではなく、いったんその時点で最も高い重大度を想定しておき、ポストモーテムの際にレビューすればよいのです。

SEV-3は重大インシデントになりうるか?

すべてのSEV-2は重大インシデントですが、すべての重大インシデントがSEV-2である必要はありません。たとえ低い重大度の問題であっても、協調的な対応が必要なのであれば、インシデント対応プロセスを開始しましょう。完全形のインシデント対応が必要とされるかどうか、インシデントコマンダーが判断できるでしょう。

重大度(Severity) 内容 一般的な対応
SEV-1

社外に向けた公表と経営陣との連携が求められる重大な問題

  • システムが致命的な状態にあり、多くの顧客へ影響している。
  • 機能が長時間にわたり深刻な影響を受け、SLAに違反している。
  • 顧客データの流出につながるセキュリティ脆弱性が明らかになっている。

重大インシデント対応

  • Slackから !ic page コマンドで、インシデントコマンダーへ通知します。
  • インシデント発生中(During an Incident) のドキュメントを参照します。
  • 内部の関係者へ知らせます。
  • 社外へ向けて公表します。
SEV-2

システムに致命的な問題が発生し、プロダクトを利用する上で多くの顧客が影響を受けている状態

  • 通知のパイプラインが深刻な影響を受け、使えなくなっている。
  • インシデント対応の主要機能(確認(Acknowledge)、解決(Resolve)など)が利用できなくなっている。
  • Webアプリケーションが利用できないか、深刻なパフォーマンスの劣化が発生しており、大半またはすべてのユーザーが影響を受けている。
  • 重大インシデント発生時に、PagerDutyのシステムに対するモニタリングが機能していない。
  • その他、PagerDutyの従業員がインシデント対応を要すると判断する事象が発生している。

重大インシデント対応

このラインから上は、すべて「重大インシデント」と判断されます。私たちのインシデント対応プロセスは、あらゆる重大インシデントに対して開始されます。
SEV-3

安定性の問題や顧客影響の小さな問題で、サービスオーナーへ直ちに伝える必要があるもの。

  • 部分的な機能の欠損で、多くの顧客には影響を与えないもの。
  • なにも対処が行われなかった場合に、SEV-2になる可能性があるような問題。
  • サービスの冗長性が失われた状態。(あと1つノードが落ちれば機能停止に陥る)

優先度高(High Urgency)でのサービスチームへの通知

  • 問題に対し、最も高い優先度で対応してください。
  • 対象システムの担当エンジニアと連携し、原因を突き止めましょう。
  • もし直近のデプロイに関連したものならば、ロールバックしましょう。
  • ステータスをモニタリングし、エスカレーションされた場合には注意を払いましょう。
  • エスカレートする可能性があると思ったら、Slack上で言及しましょう。
  • 必要ならば、インシデント対応プロセスを開始しましょう。(!ic page
SEV-4

アクションを要する軽微な問題があるが、プロダクトを利用する上で顧客が影響を受けていない状態

  • パフォーマンス問題が発生している。(遅延など)
  • 個別のホストに障害が発生している。(クラスタの中の1ノードなど)
  • ジョブの遅延障害。(イベントや通知のパイプラインには影響しないもの)
  • Cronジョブの失敗。(イベントや通知のパイプラインには影響しないもの)

優先度低(Low Urgency)でのサービスチームへの通知

  • 問題に対し、通常タスクよりも高い優先度で取り組みましょう。
  • ステータスをモニタリングし、エスカレーションされた場合には注意を払いましょう。
SEV-5

見た目の問題やバグで、顧客がプロダクトを利用する上での支障はない状態

  • システムを利用する上ですぐに影響が発生するようなものではないバグがある。

JIRAチケットの起票

  • JIRAチケットを作成し、対象システムのオーナーにアサインします。

具体的にすることが大事

これらの重大度の定義は、PagerDutyの内部的な定義をより一般化したものです。あなた自身のドキュメンテーションにおいては、影響を受けたユーザーや顧客数など、きわめて具体的な定義にすることをお勧めします。重大度は通常、指標に基づいて判断できるように定義したいものです。