そもそも「システムを監視する」ってどういうこと?
今回のセッションではクラウドの運用にかかわるさまざまな要素の中から、特に監視にフォーカスするとのことでした。ただ、システム監視、なんとなくわかった気になっていますが、改めて説明せよと言われると自信が持てません。これについてもセッションの最初に定義されていたのですが、
システム監視は
- まず、正常な状態を定義する(たとえば、CPU使用率が80%未満など)
- 続いて、異常な状態を定義する(たとえば、CPU使用率が80%以上など)
- 正常→異常の状態の変化を検知する
ということだそう。
そして、異常を検知したらもちろんそのまま放置…ではダメですね。障害対応が必要です。 障害対応を定義すると、異常な状態を正常な状態に戻すこと、になるそう。当たり前すぎるほど当たり前ですが、この障害対応にも2種類あるとか。1つ目は「あらかじめ対応が決まっているもの」。HDD利用率が80%を超えたら古いログを消す、みたいなケースですね。これは比較的問題ない。もうひとつが、不測の事態。なんだかわからないけど、マズイ。この場合、とにかく一時復旧してから根本対応と再発防止を考える…。「まずは君が落ち着け」ってところですね。ゴジラがこなくとも。
じゃあ、クラウドにおける正常と異常ってなに?
じゃあクラウドに移行すると、どうなるんでしょうか?結論からいくと、AWSでも「正常・異常の定義」自体はそんなに変わらないってことだな、と理解しました。CPU使用率はあがったらマズイし、ディスク利用率も増えすぎたらマズイ。同じです。
とはいえ、それなら今までと同じでいいじゃん!とはいかない。その監視方法がこれまでとは大きく変わってきます。なぜなら、監視対象が変わるから。実際にハードウェアのサーバやストレージがあってそれを監視するオンプレとは、勝手が大きく変わります。
たとえば、AWSだと、負荷が増えてきたら勝手にインスタンスを増やしてスケールアウトさせる「AutoScaling」という設定があります。つまり、サーバが勝手に増えるということ。この増えたサーバをどうやって監視対象に追加するのか…ちょっとどころじゃなく厄介そうです。
さらには、最近話題の「サーバーレス」。要はサーバをたてずに、AWSが用意したマネージドサービスだけを使って、システムを作っちゃおうぜ、というアーキテクチャです。何を言ってるか分かりませんね?私もよく分かりません。サーバーレスの中心になるのは、AWSだとLambdaというサービスでかなりよく聞くものなのですが、詳細はまた追って勉強していきたいと思います。ともあれ、この仕組みを監視するって、何をどう監視するのか、サッパリ見当がつきませんよね。
さらに、AWSだとこれまでとは桁違いのデータを扱うこともできるようになります。ペタバイトクラスのデータレイクとか、ちょっと気が遠くなりそうです。
つまりAWSだと、正常や異常の定義自体はこれまでとそんなに変わらないけれども、監視対象が変わるから監視方法が変わる、ということ。そしてもちろん、AWSには、AWS環境を監視するためのサービスが用意されています。その名も「CloudWatch」。うん、なんか聞いたことはある気がする。AWSを調べていると割とよく見かけるサービスなのですが、イマイチつかみどころがないサービスです(個人の感想です)。
今回AWSの監視ってオンプレと何が違うのか、という基本まで学んだところで、後編の「CloudWatch」とは何ぞや?に続きます。それでは、シイノキでした!
- AWS運用管理・自動化ツール「クラウドポータル」
-
「はじめてでも運用できる」 「もっと使いこなせる」 独自開発ツール
- マネージドクラウド with AWS
-
はじめてのAWSから 一歩進んだ活用までトータルサポート
お役立ち資料をダウンロード
「AWS運用管理・自動化ツール「クラウドポータル」」のダウンロードをご希望のお客様は、
以下必要事項をご入力ください。