情シスの負担が大きい「障害対応」
— システムの障害対応は大変ですよね。障害って聞くだけでも胃が痛くなりそうです
峯 アプリケーションに異常があったら復旧するのは、システム運用の基本ですが、ひと言で異常と言っても、インフラからアプリケーションまで幅が広く、その内容によって求められる対応も変わります。たとえば、瞬間的にCPU使用率が閾値を超えたとしても、アプリケーションが問題なく稼働していれば、その場ですぐに対応しなくても大丈夫でしょう。あとから稼働状況を調査して、場合によってよりスペックの高いインスタンスタイプに切り替えるなど、「あとで対応すればOK!」のケースもあります。
一方で、夜間でも休日でもすぐに対応しなければいけないケースもあります。24時間稼働している現場向けのアプリケーションが止まってしまったら、とにかくすぐに復旧しないといけないですよね。
クラウドポータルの異常通知は、すべてメールでおこなってきたのですが、情シスが夜間や休日もメールがきていないかチェックし続けないといけないのでは、あまりに大変です。通知メールに気づいたら、PCを立ち上げて対処するのも、正直面倒ですよね。この負担を解消できないかと考えました。
Amazon Connectを活用し、障害発生を電話で通知
— では、具体的にどう実現するのか、伺えますか
峯 解決策のひとつとなるのが、電話通知です。これは、AWSのコンタクトセンターサービス「Amazon Connect」で実現しています。Amazon Connectは、企業のコンタクトセンターなどで利用できるサービスですが、電話番号から回線まで、「電話をかける」ために必要な機能がひととおりそろっていますし、AWSのサービスと連携して、処理を作り込むことも簡単です。
— なるほど。Amazon Connectはコラムでも何度か取り上げましたが、こういった活用法もあるんですね
峯 はい。クラウドポータルではAmazon Connectを使って、通知先に指定した電話番号への通知ができます。現状では、
- ・スナップショット取得やインスタンス起動などのジョブ実行結果の通知
- ・カスタマイズしたスクリプトの自動実行結果の通知
- ・AWSリソースの閾値異常通知
- ・サービス応答監視からの異常通知
の4種類に対応しています。AWSリソースの閾値異常はEC2インスタンスやRDSインスタンスのリソースを監視して、「CPU使用率が閾値を超えた」などのケースですね。また、サービス応答監視ではアプリケーションなどの状態を細かく監視して、異常を通知することができます。スクリプトである程度処理を作り込むこともできますし、対処しなければいけない障害は電話で通知できるようになると思います。今後も電話通知で対応できる範囲をどんどん増やしていく予定です。
クラウドポータルによる電話通知の流れ
さらに、Amazon ConnectのIVR(自動音声応答)機能を使って、「2番を押したら再起動」といったことも実現できます。PCをイチイチ立ち上げる必要もなくなりますし、かなりの負担軽減になるでしょう。
— 確かに電話がかかってくるのであれば、メールよりも「気づかなかった」というリスクは減らせますし、その場で最初の対処まで完結できるのはかなり便利そうです。
峯 IVRを使うには最初にフローを構築しなくてはいけないですし、Amazon Connectの環境構築も必要になるのですが、利用開始時はソニービズネットワークスでサポートします。一度環境を構築してしまえば、その後は、通知先の電話番号はクラウドポータルで設定できます。週ごとに電話通知を受け取る担当者を変えるといった運用も簡単です。
Slack・Chatworkへの通知にも対応
— メール、電話以外にもなにか対応しているものはあるのでしょうか?
峯 最近は、チーム内のコミュニケーションにSlackやChatworkといったチャットツールを使うことが増えています。通知も、これらのツールにそのまま送ってほしい、という声があったので、こちらも対応しました。電話通知はソニービズネットワークスで初期設定をおこなう必要がありますが、SlackやChatworkであれば、ツール側で取得するWebhook URL(Slack)や、APIトークン・ルームID(Chatwork)を指定するだけですぐに使えます。
いつも使っているツールに通知がくるのは便利ですし、関係者全員にまとめて通知が届きます。また、そのあと「だれが対応するのか」「どう対応するのか」といったやり取りも、いつものツールでまとめて管理できるようになりますから、対応漏れを防いで、より効率的な運用ができると思います。
障害発生時のより確実かつ迅速な対処をサポート
回取り上げた「通知」は、正直なところ華やかな機能、というワケではありません。でもこれがないと運用がどうにも回らない、本当に欠かせない機能のひとつです。マネージドクラウド with AWSを導入した企業には、「まずは通知先のメールアドレス設定を」とお願いしているほど。もちろん、通知するだけでなく、異常発生時に自動で復旧までおこなう機能も提供しているので、アプリケーションのニーズによってはこちらを使うのも有効です。
システムにトラブルが発生したときに、より確実かつ迅速に適切な対処をすること。クラウドポータルでは、こういったシステム運用をサポートする各種機能を提供しています。これらをうまく使うことで、情シスのみなさまの負担も、軽くできるのではないでしょうか。
- ※本記事で紹介した機能は、事前の設定が必要な場合や、利用に制限・条件などがある場合がございます。詳細はお問い合わせください。
- AWS運用管理・自動化ツール「クラウドポータル」
-
「はじめてでも運用できる」 「もっと使いこなせる」 独自開発ツール
- マネージドクラウド with AWS
-
はじめてのAWSから 一歩進んだ活用までトータルサポート
お役立ち資料をダウンロード
「AWS運用管理・自動化ツール「クラウドポータル」」のダウンロードをご希望のお客様は、
以下必要事項をご入力ください。