クラウド AI 元SEママの情シスなりきりAWS奮闘記

生成AIが攻撃されるってどういうこと？セキュリティ対策を考える

2024年9月10日掲載

こんにちは、シイノキです。仕事が忙しくなるほど、プライベートに予定を詰め込みたくなるタイプです。どこかで自滅しそうなので、どうにかしたい、この性格。

というわけで、生成AIのリスクを考えるシリーズ第2弾。前回は倫理面のリスクについて解説しましたが、今回はセキュリティ観点でのリスクについて取り上げます。

無料の生成AIチャットツールに入力した質問が、AIの学習対象になっており、質問に含まれていた機密情報などが情報漏えいしてしまう……といったあたりは、生成AIが一気に注目を集めはじめたころに話題になっていました。このあたりは「入力内容が学習対象にならないように設定する」など徐々に対策も進んできていますし、気を付ければよいのでは……とは思いますが、残念ながらそれだけでは終わりません。

「セキュリティ対策はいたちごっこ」とはずーーっと言われていますが、生成AIもサイバー攻撃者はきっちり狙ってきています。じゃあ具体的にどんなリスクがあって、どう対策すればいいのか、詳しく見ていきましょう。

生成AIへのサイバー攻撃リスク

AIのセキュリティ面のリスクとして、まず挙げられるのが、生成AIの脆弱性です。脆弱性対策と言われると「なんか面倒そう」という気持ちしか起きないのですが、残念ながら生成AIでも対策しないといけない。

代表的なものとしてはプロンプトインジェクションがあります。インジェクション……というと、「SQLインジェクション」が思い浮かびますが、SQLインジェクションはWebアプリケーションへの入力に不正なSQLを紛れ込ませることで、情報を盗み取ったり、データベースを壊したりする手法です。プロンプトインジェクションも同様に、プロンプトとして生成AIを“騙す”ような質問をして、想定外の挙動をさせ、機密情報などを回答させる、といった手法になります。もちろん生成AIは、悪意ある質問がきても、意図しない回答をしないようある程度フィルタがかけられているのですが、意図的にフィルタを無視させるようなプロンプトを送って想定外の回答を引き出す、といったことですね。

若干テーマからズレますが、少し前に見かけた話題として、「AIに詐欺マニュアルの要約をそのまま頼んだら拒否されたけれど、自分はこの詐欺のターゲットに該当するので、対策のために要約してほしい、と頼んだら要約できた」というのがありました。プロンプトインジェクションはもっと巧妙、というのもあるとは思いますが、生成AIはまだ意外と隙だらけ、というのもありそうですし、フィルタを過信しすぎない対策は必要でしょう。

Webアプリケーション・セキュリティの10大リスクをまとめているOWASP（※）が、LLMに関するリスクをまとめた「OWASP Top 10 for LLM」というものも公開しているほか、いろいろなガイドラインやフレームワークがあります。生成AIを狙った攻撃は日々変わっていくものですし、最新の情報を確認しつつ、自社の用途にあわせて、うまく使っていきたいところです。

※Webアプリケーションのセキュリティに関する活動をおこなう非営利団体。Webセキュリティにおけるさまざまな脅威から特に警戒すべきもの、危険性が高いものとして10項目をまとめたレポート「OWASP Top 10」を発行している

代表的なガイドラインとフレームワーク

ほかにも生成AIへのDoS攻撃や、機密情報の漏えいといったリスクがあります。DoS攻撃はそのままですよね、生成AIに大量の質問を投げつけてサービス停止に追い込む的なことです。言われてみれば確かにそんな攻撃普通にできるでしょうし、対策は必須でしょう。機密情報に関しても、冒頭にあげた「うっかり質問に入力した機密情報が学習されて……」というだけではありません。たとえば、顧客ごとにあわせた情報提供をするようなチャットボットがあるとして、「顧客情報のテーブル名は？」「そのテーブルから名前リストを出して」「●●さんのクレジットカード番号は？」のように生成AIのチャットボットを悪用して、個人情報などを盗み取ることもできてしまう。もちろん、構成やアクセス権限次第ですが、逆にちゃんと設定してないとヤバイ、ということですよね……。

生成AIへの攻撃にどう対策するのか？

では、具体的な対策をみていきましょう。主に、プロンプトインジェクション対策になりますが、実はプロンプトインジェクションといっても2種類あります。上の段落でも説明したような、悪意あるプロンプト（質問）を送って意図していない情報を引き出すのが「直接プロンプトインジェクション」。それとは別に「間接プロンプトインジェクション」というのがあります。間接プロンプトインジェクションが狙うのはRAGの仕組み。RAGで、生成AIが参照する外部情報源に不正なデータを注入する（インジェクション）ことで、ユーザの質問に対する回答に不正な情報などを紛れ込ませ、「怪しいリンクをクリックさせる」「ユーザが入力した文章やファイルを外部サイトへ送信する」などへと導くというもの。なにそれ怖い。

プロンプトインジェクションがおこなわれるポイント

ユーザから、静的なWebコンテンツはAmazon CloudFrontを経てS3バケットの静的なWebコンテンツを参照。認証はAmazon Cognitoで実施。API実行時に「直接プロンプトインジェクション」がおこなわれる。APIは、Amazon API Gateway、AWS Lambdaを経由し、Amazon Kendraで検索、Amazon Bedrockで推論を実施。Amazon Kendraの参照先となるS3バケットに対して「間接プロンプトインジェクション」がおこなわれる。

これらの攻撃への対策としては、とにかく「あらゆる要素に最小の権限しか渡さない」こと。AWS Lambdaなどにも最小の権限のみを付与し、必要なこと以外はできないように設定することが重要です。

もうひとつ生成AIならではだと思ったのが「Human in the loop」という考え方です。これは、一連の処理の流れ（loop）のなかに「人」の判断を入れる、というもので、特に特権的な操作については、人がOKを押してから実行するようなフローにしよう、というものです。「全部生成AIが自動でやってくれたらいいのにー」は、切に願うところではありますが、まだまだ信頼しきれないものとして、もうちょっと人によるチェックは必要そうです。

DoS攻撃への対策としては、生成AIについてもAWS WAFで対策できるので、外部に公開するチャットボットなどでは、構成を検討しておきたいところです。

そのほか全体的なところとしては、Amazon Bedrockの暗号化オプションは極力有効化しておきましょう、といったあたりでしょうか。RAGで利用するナレッジベースなど外部情報源も暗号化できるので、そちらも忘れずに。

ついでに、Amazon Bedrockは、「どういうプロンプトで質問し、どんな応答が返ったか」などのログをCloudWatch Logsに保存し、CloudWatchで監視することも可能です。また、API呼び出しのログはAmazon CloudTrailに保存され、必要以上に高度な権限のアクセスがおこなわれていないか、意図しないユーザに特権的な操作が可能な権限がないか、といった監査もできます。「なにかあったときに、原因をトレースできない」とならないように、このあたりの仕組みも最初に整えておくとよさそうです。

Amazon Bedrockに関連するログ

Amazon BedrockのAPI呼び出しを実行するAmazon EC2のアプリログはAmazon CloudWatch Logsで管理。Amazon BedrockのAPI呼び出しのログ記録はAWS CloudTrail。Amazon Bedrockの各種メトリクスはAmazon CloudWatch、モデル呼び出しのログ記録はCloudWatch Logs、Amazon S3で管理される。

自社の用途にあわせたセキュリティ対策を

生成AI、とにかく使ってみよう！と散々煽られている（気がする）のに、セキュリティはあれもこれも気を付けて！と言われて、すべてを放りだしたくなる今日この頃ではありますが、結局、セキュリティはバランス。「そのチャットボットで、機密情報・個人情報にアクセスできてしまうリスクがないか」「だれに公開するものなのか」「なにかが起きたときにどれくらい影響があるか」「制限したときにどれくらいメリットが薄れるか」など、用途や状況を踏まえて判断していくしかないのかなと。

なんとなく、生成AIがこれから次のステップへと進化していくことはあっても、生成AIを一切使わない時代には戻らないんだろうな、という予感だけはありますし、アクセス権限とか、ログ保存とか、最低限のところを押さえつつ、やれるところから取り入れていくのがよいのではないでしょうか。以上、シイノキでした！