こんにちは、インフラを担当しています鈴木秀典です。
入社以来、数年に渡ってオークション、ショッピングなどのサービス開発、運用を担当していましたが、昨年インフラ部門に移り、今はヤフー全体のシステム監視、可視化をはじめ、オペレーションエンジニアが抱える共通的な課題の解決につとめています。
このたび、障害時の電話連絡を自動で行うシステムを構築したので、ご紹介したいと思います。
休祝日や夜間などに、営業部門からシステム担当者に連絡を取る際、なかなか担当者をつかまえられなかったり、大きなサービスの場合は、担当者を一発で引き当てられず連絡に時間をかけてしまうことがありました。
連絡を受けるシステム担当者の立場からは、少し遅れて連絡が入っていたことに気づいたとき、今誰が対応しているのかを知りたいということもありました。
そこで、このような機能を持った連絡ツールを構築しました。
- 一斉に電話連絡する機能(全員から回答があるまで繰り返す)
- 順次電話連絡する機能(誰かひとりから回答があるまで繰り返す)
- 架電履歴を共有する機能(回答内容を一覧表示する)
こんな場面で使います。
- 営業やカスタマサポートなどの部門が発見した障害をシステム担当者に連絡する。
- 監視システムからオペレーションエンジニアに緊急連絡を自動でする。
画面イメージとともに、ご紹介したいと思います。
営業、カスタマサポートなどの部門向けツール
サービス名かホスト名を指定すると担当者が決定されます。
アナウンスする内容は自由に設定できます。
お決まりの文言は定型文から選択できます。
回答をプッシュ操作でしてもらうこともできます。
「最大繰り返し回数」の設定、「一斉 / 順次」の選択ができます。
架電の状況、履歴が参照できます。
回答内容、架電回数、架電時間が一覧できるので、担当者がしっかり緊急電話をとったのか、また誰が対応しているのかが把握できます。
オペレーションエンジニア向けツール
この機能を使って、オペレーションエンジニア向けのシステム監視ツール「管制塔」を構築しました。
システムが障害の兆候を示すと、担当者に自動的に架電し、担当者はその状況を共有できます。
管制塔にはこの他にも特徴的な機能がありますが、機会があればご紹介したいと思います。
最後に
架電はKDDIウェブコミュニケーションズが提供しているサービスで実現させています。
このサービスは、web APIをコールするだけで架電したり、履歴が取得できるので、この様なツールを簡単につくれます。
社内のいくつかの部門でデモをした際には、これは使えそうだ、数日でこのツールが完成したなんて驚きだ、アナウンス音が想像以上だ、などの声をいただきました。
オペレーションの現場では、この他にもたくさんの課題を抱えています。それら、どんどん解決していきたいと思います。
こちらの記事のご感想を聞かせください。
- 学びがある
- わかりやすい
- 新しい視点
ご感想ありがとうございました