After an Incident
重大インシデントの後に実施すること、フォローアップや事後レビュー手続きについて解説します。
役割ごとのフォローアップアクション#
インシデントから生成された直接的なフォローアップ項目に加えて、私たちの各対応ロールには標準的なフォローアップタスクがいくつかあります。これらは一般的に負担の軽いアクションであり、情報を整理し、顧客へ適切にフォローアップすることを保証します。
インシデントコマンダーの手順#
-
PagerDuty上のインシデントを更新します。
- 関連するインシデントをすべて、主要なインシデントの下にまとめます。
- インシデントの最終的な重大度を設定します。
- インシデントを解決(Resolve)します。
-
ポストモーテムを作成し、インシデントのポストモーテムのオーナーを割り当てます。
-
関連する関係者に内部メールを送信し、インシデントが発生したことを説明し、ポストモーテムへのリンクを提供します。
-
ときどきポストモーテムの進捗状況を確認し、望まれる時間枠内に完了するようにしてください。
副指揮官の手順#
インシデントが解決された後に行う追加の手順はありません。しかし、インシデントコマンダーは彼らの手順を進める中であなたの助けを求めるかもしれません。
書記官の手順#
-
チャットコミュニケーションを確認し、重要なイベントから関連する項目を抽出します。
-
すべての
TODO
項目を収集し、それらをポストモーテムに追加します。
SMEの手順#
- ポストモーテムへ関連すると思われるメモを追加してください。
カスタマーリエゾンの手順#
-
インシデントに関して受け取った顧客からの問い合わせに返信してください。
-
ポストモーテムの進捗を追跡し、対外メッセージが用意されたらステータスページを更新してください。
インターナルリエゾンの手順#
インシデントが解決された後に行う追加の手順はありません。ただし、インシデントコマンダーは内部関係者からの質問に答える際にあなたの助けを求めることがあります。
インシデントのレビュー#
今回のインシデントがどのようにして起こったのか、なぜ起こったのか、そして再発を防ぐために何ができるのかを詳しく検討することが重要です。これには事後レビュー、インシデントレビュー、フォローアップレビューといった、多くの名称があります。私たちは、ポストモーテムという用語を使用します。
私たちのポストモーテムのプロセスに関しては、すべての詳細を読むことができます。
プロセスのレビュー#
インシデントをレビューするだけでなく、プロセスを見直すことも重要です。インシデントをうまく処理できましたか、それとも改善できる点がありましたか?
このレビューはまだあまり型が定まっておらず、通常は数人のインシデントコマンダーが集まって、どのようにすれば違ったことができたか、またはインシデント対応プロセスになにか調整を加えることができるかどうかなどが話し合われます。
これらの会議に参加したい場合は、インシデントコマンダーの誰かに知らせてください。必ず招待します。