Postmortem Template

これはPagerDutyで使われているポストモーテムの標準テンプレートです。各セクションでどのような情報を書いておくとよいかを説明します。


ガイドライン

このページは、5営業日以内にスケジュールされるべきポストモーテムのミーティングでレビューされることを想定しています。 最初のステップは、共有カレンダー上でポストモーテムのミーティングをインシデント後5営業日以内にスケジュールすることです。 まだ情報が埋まっていなくても、スケジュールするのを先延ばしにしてはいけません。ミーティングまでにページが完成しているようにしましょう。

ポストモーテムオーナー: あなたの名前を記入します。

ミーティング日時: 共有カレンダー "Incident Postmortem Meetings" に、インシデント後5営業日以内の日程でポストモーテムのミーティングをスケジュールします。ここには日付と時間を入れましょう。

会議のレコーディング: ここにはインシデント会議のレコーディングへのリンクを貼ります。

概要#

インシデントを引き起こした要因、タイムラインのまとめと影響を、短い文章一文か二文くらいで記載します。例:8月99日の朝に、プライマリのデータベースのプロセスが暴走した影響で、1分間のSEV-1インシデントが起きました。処理遅延により、この時間帯に発生したアラートのうちおよそ0.024%がSLA違反した状態で配信されました。

なにが起きたか#

なにが起きたかの短い記述を行います。

インシデントを引き起こした要因#

問題の発生に寄与したあらゆる条件を記載します。もし問題を悪化させてしまったアクションがあれば、解決プロセスの中で起きた失敗から学ぶためにもここに書いておきましょう。

解決#

なにが問題を解決したのかを記載します。一時的な問題の解決策があったのであれば、長期的な解決策とともに記述しましょう。

影響#

きわめて具体的かつ正確な数字を記載してください。

SEV-1の状態にあった時間 ?分間
SEV-2の状態にあった時間 ?分間
SLA違反した状態で配信された通知 ??% (?? 件中 ?? 件)
欠落したり、受理されなかったイベント ??% (?? 件中 ?? 件) 通常0であるべきものですが、常に確認しましょう。
影響アカウント数 ??
影響ユーザー数 ??
起票されたサポートリクエスト数 ?? チケットへの関連リンクを貼りましょう。

対応者#

タイムライン#

記載対象として重要な時刻があります。(1) 問題につながる事象が始まったとき (2) 通知時刻 (3) ステータスページがアップデートされたとき(インシデントが公になったとき) (4) 重要なアクションが取られたとき (5) SEV-2/1の状態が終わったとき (6) タイムスタンプをどのように得たのかを示すツールやログへのリンク

時刻 (UTC) 出来事 データへのリンク

どう対処したか#

なにがうまくいった?#

なにがうまくいかなかった?#

アクションアイテム#

各アクションアイテムはJIRAチケットとして作成し、各チケットには同じ二つのタグが付与されている必要があります。「sev1-YYYYMMDD」(たとえばsev1-20150911)と、シンプルに「sev1」です。 次のようなアクションアイテムを記載しましょう。(1) 問題を引き起こす要因の発生を将来的に防ぐ上で必要な修正 (2) 再発した場合に問題を緩和するために準備しておくタスク (3) 残りのポストモーテムのステップ、すなわち社内メールや公開されたステータスページへの投稿など (4) インシデント対応プロセスに対するあらゆる改善点

メッセージング#

社内メール#

従業員に対するフォローアップです。ポストモーテムのミーティングの終了後、すみやかに送信しましょう。インシデントを総括する短い文章と、Wikiへのリンクがあれば十分です。

なにが起きたかを簡単にまとめ、このポストモーテムのページの場所を記載しましょう。

対外メッセージ#

インシデントについてstatus.pagerduty.comのWebサイトに掲載される内容です。顧客へ伝えること、中には謝罪も含まれます。(謝罪は真摯なものであり、形式的なものであってはなりません。)

まとめ

なにが起きたか?

これを受けて、なにを実施しているか?