機械学習導入のハードルを大きく下げる7つのサービス
ここ数年、大きなトレンドとなっている「機械学習」。AWSではなんと20年にわたって取り組みを進めてきたそう。確かにECサイトのAmazonでのレコメンドは機械学習の大きな成果のひとつでしょうし、あのレコメンドにそそのかされてどれだけのものをポチったことかっ…!そのほかにもスマートスピーカーの「Echo」や、レジがないコンビニとして話題になった「Amazon Go」などアマゾン全体のイノベーションの中核で機械学習が使われていて、この機械学習の技術をAWSがフルマネージドで提供している、というワケです。
サービスの全体像としては、インフラ、エンジン、プラットフォーム、サービスの4階層にわけられますが、機械学習のためのインフラや、開発のための環境などが揃ったエンジン、プラットフォームといったあたりはやっぱり機械学習がわかるエンジニアがいないと話にならない予感。ところが、サービスとなるとちょっと風向きが変わります。「フルマネージドです」と何度も強調しているだけあって、かなり手軽に機械学習っぽいことを使えちゃうんじゃないの…?という雰囲気になってきます。
AWSでは「Amazon Rekognition Image」(画像認識)、「Amazon Rekognition Video」(動画認識)、「Amazon Transcribe」(音声認識)、「Amazon Comprehend」(自然言語処理)、「Amazon Lex」(チャットボット作成)、「Amazon Polly」(音声合成)、「Amazon Translate」(翻訳)の7つの機械学習関連サービスを展開しています。深層学習モデルはAWS側で最適にチューニングされているので、ユーザは使うだけでOK。………OKって言われても、どう使うのかさっぱりわからないので、ここから具体的に解説していきたいと思います。
画像認識&動画のリアルタイム分析が可能に!
機械学習関連のサービスはざっくり画像処理系と言語処理系に分けることができます。まずは画像系の2つのサービス「Rekognition Image」と「Rekognition Video」を紹介しましょう。
それぞれ、画像と動画の処理をおこなうのですが、まずは画像をあつかう「Rekognition Image」から。これを使うと、画像にある物体やシーンの検出、顔の感情やポーズ、同一人物かどうかの分析、さらには顔認識までできます。これはもととなる顔画像から特長を抽出しておき、認識したい画像を入れると「誰が写っているか」を検出できちゃうというもの。つまりアレですね。SNSなんかで写真をアップすると映っている人がタグ付けされたりするアレです(たぶん)。さらには画像に写っている有名人を認識したり、不適切なコンテンツを検出する節度判定、画像内の文字(アルファベットのみ)を識別するラベル認識も可能です。このサービスを使えば、画像認識の具体的な処理はまったく意識せずに、自社アプリケーションに画像認識系の機能をつけられちゃう、というワケです。
もうひとつの「Rekognition Video」があつかうのは動画。動画のどのタイミングで、どんな人やアクティビティが映っているかを分析します。「Rekognition Image」と同様に顔認識や節度認識、有名人認識もできるので、たとえば「動画の中で有名人がどのタイミングで出てくるか、アクションがいつ起きるか」を検出できるように。さらには、リアルタイム分析もできちゃうので、監視カメラの動画からリアルタイムに異常を検知する、なんてことも。
これらは日本語対応していないため、ラベル認識や分析結果はすべて英語。とはいえ、基本的に分析対象は画像や動画なので、十分使えそう、という印象でした。いまや個人でも写真や動画を結構大量に持ってる時代ですし、これまでデータだけあっても活用しきれなかったところでもあるはず。アイデアひとつで結構なビジネスチャンスにつながるんじゃ…なんて夢を見てもいいのかもしれません。
翻訳、音声合成、書き起こし…日本語対応状況が残念
では続いて、音声・言語系のサービスを見ていきましょう。まず分かりやすいのは「Amazon Translate」、その名のとおり翻訳サービスです。英語を仲介することで4つの言語を翻訳できる…ということですが、残念ながら日本語は非対応。今後に期待です。
続いては人の音声を合成できる「Polly」です。こちらは日本語にも対応していて、テキストを入力するだけで、リアルな音声を合成できます。音の強弱をつけたり、ささやき声や息継ぎを入れることも。日本語でもみずきさんという女性の声と、たくみさんという男性の声の2種類が選べるそう。さらには「リップシンク」といって、唇の形をマッピングした情報も取得でき、これを使ってアニメーションと連動させることもできます。音声合成系のサービスはすでにいろいろありますが、ほかのシステムとの親和性、連携しやすさという観点からはAWSで使える価値は大きい気がします。
3つ目のサービス「Amazon Transcribe」は、自動で音声を認識してテキストに変換するサービスです。S3の音声データからテキストを取得でき、電話の音声や複数話者の認識もOK。さらにカスタムで語彙を登録することで精度を高められるうえ、100%ではないものの句読点の追加にも対応しているとか。またタイムスタンプと変換の“信頼度”つきで結果を取得できるので、自動でテキスト化して、信頼度が低いところだけチェックすることも可能です。こうなると会議の音声をS3に放り込むだけで「Amazon Transcribe」が勝手にテキスト化してくれるので、議事録作成が不要になる未来も見えてきます。となると、取材のテープ起こしももうお任せできちゃうのではなかろうか…。残念ながら日本語には非対応ですが、今後がなかなか楽しみなサービスです。
“自然言語処理”って、なにができるの?
そして4つ目が「Amazon Comprehend」。
これは「テキスト内でインサイトや関係性を検出する自然言語処理」のサービスです。はい、分からないヤツがきましたね。すごく簡略化して説明すると、テキストを入力すると、エンティティ(人名や地名、日付など)やキーフレーズ(そのテキストでポイントになるところ)のマークアップや、感情分析(ポジティブかネガティブか)をしてくれる、ということ。まだピンときませんが、たとえばこれを使って「あるドキュメントと同じトピックが含まれるドキュメントはどれかを検索する」「SNSに流れるカスタマーの声を分析する」なんてこともできる模様。ほかにも先ほど挙げた「Amazon Transcribe」と組み合わせて、コールセンターの音声データをテキスト化し、「Amazon Comprehend」で分析して、結果を可視化することも可能になるそう。このあたりになると、ちょっと「気軽にできる」範囲を超えてきた印象はありますが、それでも「機械学習をイチから自社でどうにかする」と比べたら、圧倒的にハードルが低いのは間違いないでしょう。ただ、「Amazon Comprehend」も日本語には対応していません。言語系はここがネックですよね。
最後が、「Amazon Lex」。会話型インターフェース、いわゆる“チャットボット”を作るためのサービスです。ホテル予約のチャットボットを例に挙げると、「いつから?」「どこに行く?」などユーザと会話する部分はコーディングレス&GUIで作れるそう。そのうえで実際にホテル予約をおこなうビジネスロジック部分のみ開発すればチャットボットが完成しちゃうというから、なかなかすごい。電話音声が認識できるし、「Amazon Lex」を使ってAlexaのスキルを開発することももちろん可能です。さらにはFacebookメッセンジャーやSlackなどとも連携できるのだとか。ただ、チャットボット作成ツール自体はすでにいろいろあるようなので、これもAWS上のビジネスロジックと連携できるところが一番の優位性、といったところでしょうか。ただし、こちらも日本語非対応なのでご注意を。
まとめ
「機械学習」とまとめても結構いろいろあるものですね。機械学習は、なんだか自分からは遠すぎる存在で、どこかでだれかすごい人がなんかすごいことやってるんでしょ?という気持ちでいましたが、すでにこれだけのサービスが提供されている、というのは驚きです。画像や動画、音声などは、これまではデータとしてとってもなかなか活用しきれないところでもあったと思います。データを使うためのサービスはこうして出そろってきたワケですし、ここをどう活かしていくかにこれからのビジネスがかかっているのかもしれません。
となるとどうしても日本語対応サービスの少なさが気になってしまいますが、これは英語と日本語の違いから仕方がないところなのでしょうか。「対応言語は今後拡充予定」の言葉を信じて待ちたいと思います。
以上、シイノキでした!
お役立ち資料をダウンロード
「マネージドクラウド with AWS_カタログ」のダウンロードをご希望のお客様は、
以下必要事項をご入力ください。