推奨アラームとは?
CloudWatchのおさらい
CloudWatchとはAWSが提供するモニタリングサービスです。
様々なサービスと連携しており、AWSで運用監視をするために欠かせないサービスです。
「メトリクス」と呼ばれるデータポイントに対して閾値を設定してアラート通知やアクションを実行することが可能です。
詳細については、弊社でCloudWatchに関する記事がありますのでご確認ください。
「メトリクス」はCloudWatchを利用するうえで重要なワードになっていますので、ぜひ覚えてください。
推奨アラーム機能
CloudWatchアラームを設定するべきメトリクスを特定してくれる機能で、アラーム条件の一部をAWS側で事前入力してくれます。
メトリクスの内容と推奨理由を明記してくれるので、何のデータに対してどのような理由で設定したほうが良いのかが非常にわかりやすいです。AWSを使い始めた方に大変おすすめの機能で、無料で利用が可能です。
推奨アラームを利用することで、AWS インフラストラクチャの押さえるべきポイントを監視できます。
CloudWatch推奨アラームの詳細と利用可能なアラームは以下AWS公式ドキュメントをご確認ください。
AWS のサービスに関するベストプラクティスアラームの推奨事項
推奨アラーム
使ってみた
今回はAutoScalingを対象に推奨アラームを使ってアラーム設定するまで実施します。アラームアクションで使用するSNSトピックは事前作成済みとします。なお弊社検証環境のため一部マスクをしております。
早速手順をご紹介します。
①アラームの作成を開始する
CloudWatchコンソールから、[すべてのアラーム]を押下して[アラームの作成]を押下します。
②機能の有効化をする
[メトリクスの選択]を押下して、[アラームに関する推奨事項]のトグルボタンを押下します。
③対象のメトリクスを選択する
今回はAutoScallingに対してアラームを設定するのでAutoScallingを選択し、[グループメトリクス]を押下します。
AutoScalingでは、[GroupInServiceCapacity]というメトリクスに対してアラームを設定するべきということがわかります。
勘の良い方はお気づきかと思いますが、[メトリクス(55)]の55は推奨事項を無効化した場合のメトリクス数(提供されているメトリクスのすべて)です。
[メトリクス名]の[i]を押下すると、[GroupInServiceCapacity]はAuto Scaling グループの一部として実行されているキャパシティユニット(EC2やECS、Lambda等)の数に対するデータポイントだということが確認できます。
[アラームに関する推奨事項]の[詳細を表示]を押下すると、アラーム設定することによって監視できる内容とアラーム設定すべき条件が確認できます。
[インテント]はアラームを設定することによってどのような監視ができるのかが確認できます。このアラームではAutoScalingグループ内のEC2などで起動失敗や起動の中断によって可用性が低下していることを検知することができるようです。
[統計]はアラームを設定する際の推奨される統計条件を確認できます。このアラームではAverage(平均)に対してアラームを設定することが推奨されております。
[しきい値の正当化]はアラームを設定する際のしきい値の推奨値を確認できます。このアラームでは対象のAutoScalingグループ内で実行しているEC2等がワークロードを実行するために必要な最小容量を指定することが推奨されております。
④対象のメトリクスにアラームを設定する
[メトリクスを選択する]を押下して、アラームの条件設定を行います。
ランプのようなマークがついている部分はAWS側が推奨アラームとして条件を入力している項目です。ユーザーはそれ以外の項目に値を入力します。ここでは、2と入力します。自身の環境に置き換えて入力ください。
⑤アクションを設定する
アラームが閾値を超えた場合に起こすアクションを設定します。
今回はSNSトピックを使って通知アクションを設定します。
⑥アラーム名を決める
わかりやすい名前を付けます。
アラームの説明は事前にAWSで入力してくれてます。
⑦アラームをデプロイする
内容を確認して、[アラームの作成]を押下して、作成できたことを確認します。
しばらくすると状態が[OK]になります。
⑧アラームを受信する
正常にアラーム通知がされるかの確認のため、AutoScalingグループの設定をしきい値を下回るように[]と[]を1に変更します。
CloudWatchアラームの評価時間待ってからメールを確認してみます。
メール通知されました。
CloudWatchのコンソールでも[アラーム状態]になっていることが確認できました。
メリット
使ってみて感じたメリットは以下になります。
●無数のメトリクスから設定すべきメトリクスの選定と推奨のアラーム条件を教えてくれる
やはりこれが一番のメリットだと感じました。
監視設定のハードルを上げている要因に「取得されているメトリクスを1つずつ確認して必要かどうかを判断していくコストが高いこと」があると考えています。
推奨アラームではこの部分をAWSが考慮して推奨してくれるので、ユーザーは推奨されたメトリクスに対してアラームを設定することでサービスの基幹部分を監視することができます。
●CloudWatchアラームに対するネガティブイメージの払拭
1点目のメリットに付随する内容になりますが、こちらも大きなメリットであると考えます。
AWSを利用するうえではCloudWatchアラームでの監視は避けて通れません。推奨アラームを利用することで、アラームを作成する際の勘所のようなものが掴めます。監視を始める第一歩として推奨アラームに従ってアラームを作成することで、「この内容も監視したほうが良いな」などユーザーが監視に対して意欲的な姿勢も期待できるのではないかと感じました。
まとめ
以上、CloudWatchの推奨アラーム機能のご紹介でした。
推奨事項に従うことで、AWS インフラストラクチャの重要な監視を見逃すことがなくなります。
また監視に対してネガティブなイメージを少しでも払拭できることも推奨アラームのメリットであると考えております。
実際に運用を開始する際には、公式のドキュメントから要件に合わせたメトリクスを判断する必要はありますが、検証のフェーズにおいてスタートを切るためにはもってこいの機能かと思います。
AWSを使い始めた運用担当者の方や使ったことのないAWSサービスを利用する場合にはぜひ使ってみてください。