What is an Incident?
インシデント対応プロセスを定義する前に、インシデント(そして重大インシデント)とは何かを定義する必要があります。
インシデントとは何か?#
顧客のサービス利用に顕著な影響を及ぼす、計画外のサービスの中断や低下を指します。
重大インシデントとは何か?#
複数のチームによる協調の取れた対応を必要とするインシデントを指します。
インシデント対応とは何か?#
インシデントへ対処しマネジメントを行う、組織的な取り組みです。目的はインシデントを解決するのみならず、損害を最小限に留めつつ回復にかかる時間とコストを減らせる形で状況に対処することです。
インシデント対応プロセスの契機となるものは何か?#
私たちのインシデント対応プロセスは、あらゆる重大インシデントにおいて開始されます。このプロセスは、効果的な対応を行い早期解決を目指すためのフレームワークをもたらします。インシデント対応プロセスは2つの方法で開始できます。1つは自動化されたモニタリングやアラート、もう1つは手動による人手のアクションです。
自動化されたモニタリング#
システム全体において、私たちはさまざまな指標をモニタリングし、インシデントを解決する上で、連携の取れた人手の対処をシステムに対して行う必要があるかどうかを判断します。どの指標をモニタリングし、何のためにモニタリングするかを決めるためには、私たちは次のような問いかけを行います。もし、これらのいずれかに対する回答が "No" なのであれば、インシデント対応プロセスを開始すべきです。
- 顧客は、すべてのプラットフォーム上で、PagerDutyによって提供されたすべてのインシデント対応機能を利用できるか?
- 例:サポートされているすべての方法で、インシデントを確認し、再アサインし、解決することができるか?
- 顧客は、SLA内で通知を受け取っているか?
人によるエスカレーション#
自動化されたモニタリングはプロセスの一部に過ぎません。私たちの機能には、本来必要なモニタリングが欠けている箇所があるかもしれません。たとえこのような場合であっても、連携の取れたインシデント対応を開始できることが肝要です。たとえば、サポートチームがシステム上の問題の疑われるリクエストを受け始めたら、インシデント対応を開始できる必要があるでしょう。PagerDutyの社員は誰もが、いつでもインシデント対応プロセスを始めることができます。
私たちは従業員の誰であっても、協調的なインシデント対応が必要であると捉えた計画外のサービスの中断や低下に対して、対応を開始します。
対応が必要か?
もし対応が必要なのかはっきりしない場合には、インシデント対応プロセスを開始してください。プロセスの開始に必要なのは、Slackに !ic page
と打って、インシデントコマンダーに通知を送ることだけです。
インシデントの重大度#
私たちの 重大度の定義 では、あらかじめ定義されたガイドラインに基づき、私たちが個々のインシデントをどのくらい深刻であると 考えるか を定めたものです。この狙いは、対応者がどのような対応を取れるのかを判断できるようにすることです。例えば、重大度が高いほど、システムを正常に戻すためならばリスクの高い決定を下せるのです。
重大度は、より複雑な対応が必要になるかどうかや、そもそも連携の取れた対応が必要なのかどうかを素早く判断するのに有用です。しかしながら、なにをもって重大インシデントとするのかを明確に白黒で判断できるような定義はありません。もし、私たちの重大度の定義でカバーできていないものがあったとして、あなたがインシデント対応が必要だと考えるならば、インシデント対応が必要なのです。私たちが知る必要があるのは、それが果たして重大インシデントなのかどうかだけです。重大度のレベルはあとで決めればよく、インシデント対応プロセスの開始に必須のものではありません。
メンタリティの転換#
私たちのインシデント対応プロセスにおけるもうひとつ重要なコンセプトは、インシデント中に必要となるメンタリティの転換です。私たちは「平時と戦時」のメンタリティ転換と呼ぶことが多いです。これは、インシデント下においては意思決定のプロセスが変化するという考え方で、平常時であればリスクが高いと考えるようなアクションも取れるようになるのです。この概念は対応者にとって把握しづらいものかもしれませんが、対応者が平時の考え方に固執して潜在的なリスクのあるアクションへ進むのを避けていると、インシデント対応プロセスが停滞してしまうことだってありえます。平時と戦時の考え方については、対応者のトレーニングガイド もご覧ください。
通常時 vs 緊急時
一部の方々は「平時と戦時」の例えを快く思わないでしょう。その場合は、ご自身で適切だと思う言葉を使ってください。「通常時 vs 緊急時」はよく選択されますが、「OK vs OKでない」も同様に使えます。どのような名前をつけるかはさほど重要ではなく、メンタリティの転換ができることが重要なのです。