Different Roles

PagerDutyのインシデント対応チームには、いくつかの主要なロールがあります。特定のロール(インシデントコマンダーなど)は、ひとつのインシデントにつき一人しかいませんが、他のロール(対象分野の専門家(SME)など)は複数人設けることが可能です。いかなる状況にあってもチームが団結して問題に取り組み、早期解決に向けて動くことが重要です。

以下に、私たちのロールの階層構造を大まかに示します。各ロールについては、本ページで後ほど詳しく議論します。

Incident Response Structure

また、大規模で複雑なインシデントにおいては、サブチームの形成を考慮したロール構造の調整が生じるかもしれません。複雑なインシデントへの対処については 複雑なインシデント を参照してください。

柔軟な構造を考える

個々のインシデントにおいては、各ロールに毎回異なる人が割り当てられることが意図されているわけではありません。例えばインシデントのスコープが十分に小さい場合には、副指揮官(Deputy)が、書記官(Scribe)や内部向け連絡係(Internal Liaison、以降インターナルリエゾン)を兼任することもありえます。構造は柔軟に、インシデントの規模やスコープに応じて変更するとよいでしょう。


インシデントコマンダー (IC)#

この役割は何か#

インシデントコマンダーは、重大インシデント発生時に、現在何が起きているか、およびこれから何が起こるかに関する唯一の情報源として機能します。この役割は、特定の属性によらずあらゆる人が担う可能性があります。

なぜ必要なのか#

ソフトウェアシステムは、規模や複雑性が増すにつれて、壊れたりインシデントを引き起こしたりします。インシデントコマンダーは、重大インシデントを解決に向けて動かすために必要です。

責務は何か#

  1. 重大インシデントに備える
    • 重大インシデントのためのコミュニケーションチャンネルを用意します。
    • 重大インシデント発生時には、用意したコミュニケーションチャンネルへ関係者を誘導します。
    • チームメンバーに対し、重要インシデント発生時のコミュニケーション方法を教え、他のインシデントコマンダーを育成します。
  2. 重大インシデントを解決へ導く
    • 全員を同じコミュニケーションチャンネルへ招集します。
    • チームメンバーから、彼らが所有するサービスや領域に関するステータス情報を集めます。
    • 提示された修復手段を集め、アクションを取ることを奨めます。
    • インシデントコマンダーは解決者では「ない」以上、修復に向けたすべてのアクションを他のメンバーの手に委ねます。
    • システムのステータスに関して、唯一の権威を持つ人物となります。
  3. 重大インシデント発生中のコミュニケーション
    • カスタマーリエゾンに対し、対外コミュニケーションが必要な場合はメッセージの草稿を作成するよう、適切なタイミングで伝えます。
    • 対外メッセージの草稿をレビューし、フィードバックを行い、承認します。
    • カスタマーリエゾンに、レビュー済みの対外メッセージ草稿を公開するよう依頼します。
    • 対外的な投稿を伴うコミュニケーションに対して強い反対意見がないか、すべての対応者へ確認するのはよい習慣ではありますが、必須ではありません。
    • もし顧客影響がなく、重大インシデントが誤報であったと判明した際は、暫定的な調査メッセージの消去を承認します。
    • カスタマーリエゾンが不在でステータスページを投稿できない場合には、インシデントコマンダーが他の誰かへ公開投稿を委任します。
  4. ポストモーテム
    • インシデントの直後に最初のテンプレートを作成し、記憶が新しいうちに皆がアイデアを書き込めるようにします。
    • 事象が落ち着いたらポストモーテムをアサインします。打ち合わせの後に実施することも可能です。
    • チームリーダーやマネージャーと共に、防止策のスケジュールを検討します。

誰が担うのか#

インシデントコマンダーのオンコールスケジュールに入っているすべての人です。訓練中の場合は、インシデントコマンダーをシャドーイングするスケジュールに入っていることが多いです。

どうやったらなれるのか#

インシデントコマンダーのトレーニングガイド(Incident Commander training guide) をご覧ください。


副指揮官(Deputy)#

この役割は何か#

副指揮官は、インシデントコマンダーを直接補佐する役割を担います。これは、状況をただ観察するシャドーイングを行うわけではなく、インシデント発生時には重要なタスクの遂行が求められます。

なぜ必要なのか#

インシデントコマンダーにとって重要なのは、ステップを書き留めることに注意を払ったりタイマーをモニタリングしたりするよりも、目の前の問題に集中することです。副指揮官はインシデントコマンダーを支援し、彼らがインシデントに注力できるように働きかけます。

責務は何か#

副指揮官に期待される役割は以下のとおりです:

  1. インシデントコマンダーに提起しなければ対処されない可能性のある問題を取り上げます。(スタートしたタイマーの監視や、読み上げ時に見落とされた項目の再確認など)
  2. インシデントコマンダーが対象分野の専門家(SME)として振る舞う必要性が出てきたり、それ以外の理由でインシデントコマンダーの役割を離れなければならないときに備えた「ホットスタンバイ」の役割を担います。
  3. インシデントに関する通話を管理し、インシデントコマンダーからの指示があった場合にはメンバーを通話から外す用意をします。

誰が担うのか#

インシデントコマンダーであれば、誰でも副指揮官として振る舞うことができます。副指揮官はインシデントコマンダーの役割を引き継ぐ可能性があるため、インシデントコマンダーとして育成される必要があります。

どうやったらなれるのか#

副指揮官のトレーニングガイド(Deputy training guide) をご覧ください。また、副指揮官には インシデントコマンダー としての教育も必要です。


書記官(Scribe)#

この役割は何か#

書記官は、インシデントの進行に応じてタイムラインを文書化し、すべての重要な決定やデータが後々のレビューのために残されるようにします。

なぜ必要なのか#

インシデントコマンダーは目下の問題に集中する必要があり、対象分野の専門家(SME)は、インシデントの解決に注力しなければなりません。発生した出来事のタイムラインを保存してレビューできるようにしておくことは、ポストモーテムにおいて自分たちがどれくらいうまく対処できたかを考え、当時は気づかなかった可能性のある追加の影響について正確に判断する上で重要です。

責務は何か#

書記官に期待される役割は以下のとおりです:

  1. インシデントに関する通話が記録されるようにします。
  2. 重要なデータや出来事、アクションが発生する毎にSlackへ記録します。具体的には:
    • 重要なアクション(例:詰まったロックを解除するためにprod-server-387723を再起動中です)
    • インシデントコマンダーから提供されたステータス報告(例:現在の状況はSEV-1です。サービスAはロック不良のためにイベントを処理できておらず、X氏がアプリのスタックを再起動しています。次のチェックインは3分後です)
    • 通話中や最後のレビュー時に行われた重要な発言(例:Bob B氏曰く「不正に残存したロックを見つけるもっと良い方法が必要だ」)

誰が担うのか#

インシデント発生中は誰でも書記官になることができ、通話開始時にインシデントコマンダーによって選ばれます。副指揮官が書記官として振る舞うことが多いですが、必ずしもその必要はなく、大規模なインシデントだとおそらくそれは難しいでしょう。

どうやったらなれるのか#

書記官のトレーニングガイド(Scribe training guide) に従い、次のインシデント発生時には書記官になる用意があるとインシデントコマンダーに伝えましょう。


対象分野の専門家、SME(Subject Matter Expert)#

この役割は何か#

対象分野の専門家(以降SME)はときに解決者(Resolver)とも呼ばれ、ドメインエキスパートまたはPagerDutyのソフトウェアスタックの一部であるコンポーネントやサービスのオーナーとして指定された人物です。

なぜ必要なのか#

インシデントコマンダーと副指揮官は、すべてを知っている超人ではありません。サービスに問題があるときは、迅速に問題を特定し修正するためにサービスの専門家が必要です。

責務は何か#

  1. サービスにおいてよく見られる問題の診断を行います。
  2. インシデント中に発見された問題を迅速に修正します。
  3. 簡潔にまとめ上げるコミュニケーションスキルを持ち、具体的には以下のCANレポートをまとめ上げます。
    • 状況(Condition):サービスの現在の状態は? 健全な状態なのか、そうではないのか?
    • アクション(Actions):サービスが健全な状態でない場合に、どのようなアクションを取る必要があるか?
    • ニーズ(Needs):解決者がアクションを遂行するためにどのようなサポートが必要か?

誰が担うのか#

「ドメインエキスパート」として知られる人であれば誰でも、インシデントの解決者として振る舞うことができます。対象サービスのプライマリのオンコール担当者がSMEを担うことが多いです。

どうやったらなれるのか#

SMEのトレーニングガイド(Subject Matter Expert training guide) を参照してください。また、チームやサービスオーナーと議論し、対象サービスにおいて求められる要件は何かを明らかにしておきましょう。


カスタマーリエゾン(Customer Liaison)#

この役割は何か#

この人物は、直接または広報のコミュニケーションチャンネルを通じて、顧客とのやりとりを行います。カスタマーサポートチームのメンバーがこの役割を担うことが多いです。

なぜ必要なのか#

他のすべてのロールが問題の特定と解決に向けて取り組む中、純粋に顧客とのやりとりに注力し、必要な注意を払いながら適切なコミュニケーションを行う役割が必要です。

責務は何か#

  1. インシデントコマンダーから依頼された際や自ら必要と判断した際に、適切なテンプレートを選んで 外部向けコミュニケーション メッセージの草稿を準備します。
  2. 明快なコミュニケーションをとる上で、より多くの情報や明確化が必要な場合には依頼します。
  3. インシデントコマンダーに対し、インシデントの影響を受けた旨を報告してきた顧客の数を定期的に伝えます。これには具体的な顧客の言及や、調査目的での例が含まれます。
  4. インシデントコマンダーの承認を得たら、インシデントに関する対外的なメッセージ(Xやステータスページ)への投稿を行います。
  5. インシデントコマンダーの承認を得たら、一時的な調査メッセージを削除します。
  6. ポストもーてむが完了したら、顧客向けの対外メッセージを提供します。

誰が担うのか#

顧客への連絡役として振る舞えるサポートチームのメンバーであれば、誰でも担当することができます。

どうやったらなれるのか#

カスタマーリエゾンのトレーニングガイド(Customer Liaison training guide) を参照し、次のカスタマーリエゾンになれるかをサポートチームへ相談します。

対外コミュニケーションについて詳しく知るには#

外部向けコミュニケーションのガイドライン(external communication guidelines) を参照してください。


インターナルリエゾン(Internal Liaison)#

この役割は何か#

内部の関係者とやりとりする責務を負う人物です。社内のチームへインシデントについて知らせたり、組織内において追加の対応者を動員したります。

なぜ必要なのか#

大規模なインシデントにおいては、組織内の複数チームが関わる必要性が出てくることがあります。これらのチームを動員する専任のリエゾン(調整役)を設け、早期に招集することは、他の対応者がインシデント対応する上での余裕につながります。

責務は何か#

  1. インシデントコマンダーの指示に従い、SMEまたはその他のオンコールエンジニアに通知します。
  2. インシデントコマンダーの指示に従い、組織内の別のチーム(財務、法務、マーケティングなど)に連絡します。
  3. 関係者と連携し、必要に応じてステータスのアップデートを行います。
  4. 社内の関係者とやりとりして質問に答え、メインのインシデント対応用の通話が横道に逸れるような影響を受けないようにします。

誰が担うのか#

インシデント対応中に、インシデントコマンダーから指定された誰もが担う可能性があります。

どうやったらなれるのか#

インターナルリエゾンのトレーニング(Internal Liaison training) を参照してください。