Subject Matter Expert
PagerDutyのどのチームでも、オンコール担当になっている場合、重大なインシデントのために通知を受け、自分のサービスのSME(Subject Matter Expert:対象分野の専門家)として対応することが期待されます。このページでは、その責任に備えるために知っておく必要があるすべてを詳しく説明します。インシデントコマンダーになることに興味がある場合は、インシデントコマンダーのトレーニングページを参照してください。
オンコールの期待事項#
チームのオンコール担当者である場合、オンコール担当者として期待される事項がいくつかあります。これは、一次および二次のオンコール担当者の両方に適用されます。また、自分のシステムでSEV-3またはSEV-4について通知を受けることは、重大なSEV-2で通知を受けた場合とは異なる期待事項があります。
オンコール前の準備#
- インシデント対応のポリシーと手順に事前に精通しておくことで、準備を整えてください。特に、
- インシデントにおける異なる役割 - あなたは「対応者」または「SME」として行動します。しかし、他の役割とそれらが何をするかについても熟知しておくべきです。
- インシデント会議のエチケット - インシデント会議中の行動に関する内容です。
- インシデント発生中 - インシデント中にすべきことです。あなた自身が特に関係するのは「対応者」のステップですが、文書全体に精通しておきましょう。
- 用語集 - 会議中に使用される可能性のある用語に精通しておいてください。
- アラート方法を設定し、PagerDutyが「おやすみモード」設定をバイパスできることを確認してください。
- インシデント会議に参加できることを確認してください。ブラウザプラグインのインストールが必要な場合があります。初めて通知を受けたときにインストールする羽目にならないようにしましょう。
- 今後のオンコール時間を把握し、旅行、休暇、予定などの周りで交代を手配してください。
- インシデントコマンダーである場合は、インシデントコマンダーとしてオンコール中に同時にチームのオンコール担当にならないようにしてください。
オンコール期間中#
- オンコール期間中は常にノートパソコンとインターネット接続手段を持ち歩いてください(オフィス、自宅、MiFi、テザリングプラン付きの電話など)。
- 重要な予定がある場合は、事前にチームの他のメンバーにその時間枠をカバーしてもらう必要があります。
- 重大なインシデントのアラートを受け取ったら、できるだけ早く(数分以内に)インシデント会議とSlackに参加することが期待されます。
- インシデントコマンダーから質問されたり、行動を指示されたりします。質問に簡潔に答え、(たとえ同意しなくても)指示されたすべての行動に従ってください。
対応の動員#
インシデントが発生した場合、あなたはインシデント対応の一部となるために動員またはアサインされる必要があります。言い換えれば、通知を通じて、または他の誰かから直接依頼されてインシデントに動員されるまで、あなたは日常の役割にとどまります。動員された後、最初のタスクはチェックインしてアサインを受けることです。インシデントが発生しているのを見ると、思わず自ら飛び込んで助けたい気持ちにかられるかもしれませんが、要請されていないリソースが現れると、かえってインシデントの管理体制が損なわれる可能性があります。
エスカレーションを躊躇しない#
何かについて確信が持てない場合、特定のシステムについてあなたよりも詳しいと思われるチームの他のSMEを呼び込むことは全く問題ありません。むしろ、追加の助けを求める上で自分のエゴが歯止めをかけないようにしてください。私たちのモットーは「エスカレーションを躊躇しない」です。対処方法がわからなかったためにエスカレーションしたことで、見下されるようなことはありません。
非難しない#
インシデントは発生します。あなたが原因となるものもあれば、他の人が原因となるものもありますし、ただ単に発生すべくして発生するものもあります。私たちのインシデント対応プロセス全体は全く非難を伴わないものです。人を非難することは非生産的であり、目の前の問題から注意をそらすだけです。インシデントがどのように始まったとしても、すべてのインシデントはできるだけ早く解決する必要があります。
戦時 vs 平時#
重大なインシデント中の行動は、過去に受け取った他のアラートとは非常に異なります。私たちは重大なインシデントを「戦時」と呼び、通常の日常業務(「平時」)とは区別しています。
平時#
組織構造は一般的にメンバーのシニア度合いに基づいています。チームのよりシニアなメンバーが議論をリードし、マネージャーやチームリーダーが最終決定権を持ちます。すべてのオプションを慎重に検討した後に決定が下され、顧客への潜在的なリスクを最小限に抑えます。
戦時#
戦時は平時と異なり、重大なインシデント会議では異なる組織構造があることに気づくでしょう。
- インシデントコマンダーが責任者です。平時の階級に関係なく、彼らは今、会議で最も高い階級の個人であり、CEOよりも上位です。
- 一次対応者(チーム/サービスの一次オンコール担当者として行動する人々)は、そのサービスの最高ランクの個人です。
- 決定は、提示された情報を検討した後、インシデントコマンダーによって下されます。その決定が下されると、それは最終的なものです。
- インシデントコマンダーは、平時に考慮されるよりもリスクの高い決定を下すことがあります。
- 例えば、インシデントコマンダーは他のすべての人のためにシステムの完全性を維持するために、特定の顧客のイベントを破棄する決定をすることがあります。
- インシデントコマンダーは合意形成に基づく決定に反することがあります。投票が行われ、10人中9人が同意しても1人が反対する場合、インシデントコマンダーは多数決にもかかわらず反対意見を選ぶことがあります。
- たとえあなたが同意しなくても、インシデントコマンダーの決定は最終的なものです。会議中は彼らと議論する時間ではありません。
- インシデントコマンダーはあなたが無礼だと感じる言葉を使ったり、行動したりすることがあります。これは戦時であり、彼らは状況を解決するために必要なことは何でもする必要があるため、時には無礼が発生します。これは決して個人的なものではなく、戦時の状況を経験したことがない場合に備えておくべきことです。
- インシデントコマンダーによって会議から退出するよう求められたり、強制的に会議から追い出されたりすることがあります。あなたが有用な意見を提供していないとインシデントコマンダーが感じた場合、これはインシデントコマンダーの裁量で行われます。繰り返しますが、これは個人的なものではなく、戦時は平時とは異なることを覚えておくべきです。