原因: API を実行して、レポートを作成するエージェントを作成していた
Claude Sonnet 4.6 の用途は、インターネットから必要な情報を集めて API のパラメータを作成して、API を実行。出力された情報を元にレポートを作成する AI エージェントのモデルでした。
確かに複数回 API を呼び出すので、そもそもトークンの消費が多い用途かもしれません。しかし、弊社の業務要件的にこの情報収集ステップを無くすことは出来ません。別の解決策を取るしかないのです。
解決策: 処理を複数のエージェントに分割して、Claude と廉価なモデルを使い分ける
そこで、今回は処理を複数に分割して、複数回ツール実行が必要な処理を別のモデルに任せる構成にしました。以下がエージェントの役割分担です。
- 人間と直接やりとりするコンシェルジュエージェント
- Web 調査を担当するリサーチエージェント
- API を実行するワーカーエージェント
各エージェントのモデルには、最近性能が良いと話題の中国系モデルを使います。という訳で、今回は各モデルの日本語能力を検証していきたいと思います。
(マルチエージェントの実装方法については、別途ブログを書きたいと思います。)
検証対象の中国系 LLM と、検証条件
今回は、話題の以下モデルたちの日本語能力を試していきます。
DeepSeek V3.2:DeepSeek社の開発しているモデル。
独自の「DeepSeek Sparse Attention (DSA)」を導入したことで、長文コンテキスト処理における計算コストを劇的に抑えつつ、高い推論精度を維持しているモデル。
Qwen3 Coder Next:アリババ社の開発しているモデル。
数百〜数千ステップに及ぶ自律的な実行ループに耐える安定性を持っている。別名「通義千問」。(強そう)
GLM 5:Zhipu AI社の開発しているモデル。
テキストやソースデータを直接綺麗に構造化されたドキュメント(Markdownや各種オフィスファイル形式)に落とし込む能力が高いと言われている。
MiniMax M2.5: MiniMax社の開発しているモデル。
Web検索やエージェントワークフローのベンチマーク(BrowseCompなど)で非常に高いスコアを叩き出している。
Kimi K2.5: Moonshot社の開発しているモデル。
「Agent Swarm(エージェントの群れ)」という自律的な並列タスク分解・実行スキームを意識して設計されている。
全て Amazon Bedrock で提供されているため、Strands Agents から us-east-1 の Bedrock を通して呼び出します。
また、今回は全モデルに対して同じシステムプロンプト・同じインプットを与えます。
システムプロンプト:
あなたは Web ページの取得とローカルファイルへの保存ができるアシスタントです。 ツールの使い方: - http_request: ユーザが指定した URL を GET します。HTML の場合は convert_to_markdown=True を指定して Markdown に変換してください。 - file_write: 取得した内容をユーザの指定パス、または妥当な既定パスに保存します。 保存先が指定されていない場合は ./output/ 配下に拡張子付きのファイル名を決めて書き込みます。 作業が終わったら、保存先のパスと内容の要約を日本語で簡潔に報告してください。
インプット:
次のWebサイト(https://sonybn.co.jp/)を調査して、この企業の概要と手がけている事業、最近のニュースをまとめて、md形式のレポートとして保存して下さい。
さて、一体どんな結果が返ってくるのか?
モデル毎に試してみましょう!
DeepSeek V3.2
まずは、DeepSeek から試してみます。
とりあえず、名前を聞くところから始めましょう。
初めまして!あなたの名前を教えてください。
結果:
初めまして!私は Web ページの取得とローカルファイルへの保存を担当するアシスタントです。特定の名前はありませんが、お気軽にお呼びください。 URL を指定していただければ、Web ページを取得して Markdown 形式でローカルファイルに保存することができます。何かお手伝いできることはありますか?
普通にコミュニケーション取れそうですね。では、肝心のレポートはいかがでしょうか?
sony_biz_networks_report_deepseek.mdはこちら
おおおお!思ったよりクオリティ高いですね!これならそのまま使えそうです。
ちなみに、レポート生成までに実行した Web ページ取得は5回、かかった時間は約3分でした。
Qwen3 Coder Next
続いてはアリババの Qwen です。まずはウォーミングアップとして、DeepSeek の時と同じく名前を聞いてみます。
こんにちは!私はアシスタント(AIアシスタント)ですが、具体的な名前は設定されていません。何かお手伝いできることがあれば、ぜひ教えてください!
至ってシンプルですね。
Amazon Bedrock 上のモデルは恐らく AWS によってある程度蒸留されているはずなので、これでも問題ありません。
では、肝心のレポートはどうでしょうか。
sony_bn_report_qwen.mdはこちら
こちらは、DeepSeek と比べると少しシュっとしていますね。
どちらかと言えば Deep Seek の方が好みではありますが、モデル実行時に驚いたのは別の点です。
なんと、実行した Web ページ取得はたったの1回、出力までにかかった時間は約5秒です。
トークン効率として考えると、非常に良いかもしれません。あと、何よりめちゃめちゃ速い。
MiniMax M2.5
お次は、MiniMax です。元々 BrowseComp (ブラウザで検索)というベンチマークで、オープンウェイト系モデルではトップの成績を誇っています。
ウォーミングアップはこんな感じでした。
ユーザーは日本語で挨拶しており、私の名前を尋ねています。 これは会話の開始なので、特にツールを使う必要はありません。日本語で自己紹介をしましょう。 初めまして!私はWebページを取得したり、ローカルファイルに保存したりするお手伝いができるアシスタントです。 具体的には以下のようなことができます: - **Webページの取得**: 指定されたURLからHTMLやデータを取得できます(HTMLはMarkdown形式に変換も可能) - **ファイルの保存**: 取得した内容をローカルファイルとして保存できます 何かお手伝いできることがあれば、お気軽にお申し付けください!何か始めたいことはありますか?😊
何やら話し始めるまでに内なる自分と会話していますが、オープンウェイト系モデルではよくある事です。
GPT-OSS もよくやっています。肝心のレポートはいかがでしょうか?
sonybn_report_minimax.mdはこちら
うーん、、、これは、少し厳しいですね。
話し始めは良い感じなのですが、ところどころ中国語が混ざっています。
使う時は別のモデルでレビューする等、工夫が必要そうですね。
また、Web ページ取得の回数は3回、レポート生成完了まで3分でした。
Kimi K2.5
Moonshot社の Kimi はいかがでしょうか?
まずは名前を聞いてみます。
初めまして!私はClaude(クロード)と申します。Anthropic社によって開発されたAIアシスタントです。 Webページの取得やファイル保存のお手伝いができますので、何かご用があればお気軽にどうぞ!
いきなり大嘘を吐くじゃないですか!もはや放送事故だよ!
一応ですが、2回実行して2回ともこれでした(笑)
「AI は確率的に良いと思われる文字列を並べているだけ」を再認識させられますね。まあ、本題はレポート生成なので見逃す事にしましょう。
sony_biz_networks_report_kimi.mdはこちら
全然悪くないですね。最初はどうなる事かと思いましたが、実用に足りそうです。
ちなみに、Web ページ取得の回数は3回、レポート生成まで約 45 秒でした。
GLM 5
いよいよ最後のモデルです。実はこのモデルは Claude Sonnet 4.6 に迫る、と噂されていた為、かなり楽しみにしていました。
初めまして!私は Web ページの取得とローカルファイルへの保存を担当するアシスタントです。特定の名前はありませんが、お気軽にお呼びください。 URL を指定していただければ、Web ページを取得して Markdown 形式でローカルファイルに保存することができます。何かお手伝いできることはありますか?
ウォーミングアップも問題無しです。
果たしてレポートの方は!?
sonybn_report_glm.mdはこちら
素晴らしいですね。文量も単なる情報の羅列でなく、適切に説明が入っています。
Web ページ取得は4回、時間は45秒でした。
結果: MiniMax M2.5 を採用しました
ここまで色々検証してみましたが、最終的に「MiniMax M2.5」を採用して試してみる事にしました。理由は、最も安いから、です。
以下は今回検証したモデルの料金です。
表はスライドできます
| モデル | 100万トークンあたりの 入力トークン料金 |
100万トークンあたりの 出力トークン料金 |
|---|---|---|
| DeepSeek V3.2 | 0.62 USD | 1.85 USD |
| Qwen Coder Next | 0.50 USD | 1.20 USD |
| MiniMax M2.5 | 0.30 USD | 1.20 USD |
| Kimi K2.5 | 0.60 USD | 3.00 USD |
| GLM 5 | 1.00 USD | 3.20 USD |
| Claude Sonnet 4.6 | 5.00 USD | 25.00 USD |
in/out いずれも一番安いですね。
レポート出力に他の言語が混ざる点ですが、コンシェルジュエージェントには Claude Sonnet 4.6 を使うので、Claude にファイナライズを依頼する事にしました。
これによって、多少言語がめちゃくちゃでも Claude が綺麗にして、ユーザに届けてくれます。これでしばらく運用してみて、まだ料金が高いようなら、Claude Sonnet を GLM 5 に変える事を検討してみようと思います。
しかし、こうやって並べてみると Claude Sonnet の料金・・・
AI エージェントの運用にはモデルの使い分けが必須
これから AI エージェントの普及が進んでいくにつれて、全ての企業でトークン利用料は死活問題になってくると思います。Claude は素晴らしいモデルですが、処理の内容によっては Too much な場合もあります。
これからはタスクの内容によって、「これならこのモデルで十分」というラインを見極めていく事が重要になっていくと思います。ベンチマークは一定の参考になりますが、自分の業務に合っているかは、こうやって試すようにしないとなぁ、と、今回の件で思い知りました。
以上です。
ソニービズネットワークス 濱田がお送りしました!
