最新ニュース・お知らせ

検索ツール4種を比較して見えた「Exaの汎用性」

はじめに

プロジェクションマッピング協会の三代です。今回はAIを使った調査タスクの最適化についてのお話です。

Claude Code で調査タスクを進めていると、TavilyExa、Claude 組み込みの WebSearch/WebFetch など、利用可能な検索ツールが複数あります。いずれも一定水準で機能する一方、どれが最も実務で使いやすいかは意外に判断しづらいのが実情です。

そこで、実際に同一条件で比較検証しました。

6カテゴリの調査問題を用意し、5つの陣営(=ツール構成)に同じ質問を投げ、別の Claude Sonnet 4.6 を評価者として採点しました。内訳は、調査30回と採点6回です。

結論を先に述べると、単一ツールとして最も汎用的だったのは Exa でした。ただし、カテゴリによって最適解は変わるため、用途別の使い分けが重要になります。


対戦カード

陣営ツール構成
ATavily Search + Extract
BTavily Research(マルチステップ版)
CExaEverything Claude Code プラグイン内の Web Search + Fetch)
DClaude 組み込みの WebSearch + WebFetch
E全ツール自由(上限ベースライン)

採点は100点満点で、正確性35 / 網羅性25 / 鮮度15 / 出典品質15 / 独自価値10 の配点です。時間・呼び出し回数は無制限とし、正確性と深さを最優先、全主張に evidence_url を必須としました。

問題6本

  • Q1 時事速報: イラン・ホルムズ海峡の直近ニュース(最新時刻を取れた陣営が勝つ)
  • Q2 技術仕様: Next.js 16 の Cache Components(use cache, cacheLife, etc.)
  • Q3 ニッチ: Solana の Jupiter v6 vs 1inch vs 0x の手数料構造
  • Q4 数値fact: 2026年の日本国内 EV 補助金(車種別・自治体別の金額)
  • Q5 比較分析: 主要 AI モデルの料金比較(入力/出力/キャッシュ)
  • Q6 日本ローカル: 2026年のインボイス制度変更点

英語/日本語、技術/制度、一次ソース重視/速報性が偏らないように設計しています。


結果: Hybridが5勝、ただし注目は Exa

600点満点の総合スコアです。

陣営合計平均
E: Hybrid(全ツール)56293.7
C: Exa52888.0
B: Tavily-Research50283.7
D: Claude-Builtin49181.8
A: Tavily-Basic48380.5

Hybrid が5勝したのは「相互検証できる」という構造的優位によるもので、ある意味では自然な結果です。

特筆すべきは、Exa が Q3(ニッチ)で Hybrid を上回って単独1位を獲得した点と、全カテゴリで最下位が一度もない安定性です。


Exa: 一次ソースへの到達力が高い

Q3では次のような差が出ました。

「Solana の Jupiter v6 の手数料構造」を調査した際、Exa は次の情報を取得しました。

  • 1inch の商用 API 利用規約PDFに直接到達しました。記載されていたコスト条件(「収益の50% か 0.2% の高い方」)を確認できたのは Exa のみでした。
  • Jupiter API の /order エンドポイントと /build エンドポイントの非対称設計を正確に区別しました。
  • ガスコストを Solana $0.00025 / Ethereum $15〜$45 と定量比較しました。

他陣営は二次記事レベルに留まり、同等の深度には至りませんでした。

Exa のニューラル検索は、公式ドキュメントや PDF への到達率が非常に高いです。英語圏の技術調査を深掘りする場合は、まず Exa を試す価値が高いです。

なお、今回の検証で使用した Exa は、Everything Claude Code プラグイン経由の実行環境です。

一方で弱点もあり、日本語の制度系では精度が落ちます。EV補助金の調査(Q4)では73点で4位となり、NeV公式PDFに十分到達できず二次情報への依存が見られました。


Tavily-Research: 日本語制度には強いが、数値検証に課題

Q6の2026年インボイス制度では95点を獲得し、Hybrid(96点)に1点差の2位でした。

評価できる点は、財務省大綱PDF・国税庁PDF・国税庁特設ページを網羅し、さらにフリーランス新法との連動や独禁法の優越的地位濫用まで言及していたことです。日本の制度系の深掘り能力は高いです。

ただし、同じ陣営が Q4(EV補助金)では64点で最下位となりました。主な誤りは以下の通りです。

  • bZ4X の補助金を「13万円(130,000円)」と記載。正解は130万円(1,300,000円)で、桁が1つ不足していました。
  • 東京都の補助金を令和7年度の情報(基本20万円)で記載。令和8年度は60万円であり、旧情報を参照していました。
  • 申請受付開始日を「令和7年3月31日」と記載。正解は令和8年3月31日で、1年のずれがありました。

Research ツールは深掘りに強いですが、数値と年度の検証には注意が必要です。金額を扱うタスクでは、他ツールでの裏取りを推奨します。


Claude 組み込み WebSearch: Wikipedia依存と403の課題

WebSearch + WebFetch は Claude Code に標準搭載されており、最も手軽に利用できます。API仕様の調査(Q2)では91点で2位、出典が nextjs.org 公式のみという出典品質満点を記録しました。

一方、他カテゴリでは次の弱点が見られました。

  • タイムゾーン換算の誤りが出やすいです。Q1では ET+14h と ET+9h が混在し、JST換算の精度が低下しました。
  • Wikipedia への依存度が高いです。Q1のタイムライン構築で Wikipedia を主参照としており、一次ソースより二次情報に寄る傾向があります。
  • OpenAI公式が 403 で取得できない場合があるです。Q5では platform.openai.com にアクセスできず、BenchLM.ai や PricePerToken.com といった集約サイトに依存しました。

利便性は高いですが、一次ソースに到達できない場合は集約サイトに流れやすい点は押さえておきたいところです。


Tavily-Basic: 情報量は多いが、幻覚リスクがある

Q1(時事速報)では86点で3位でした。AP通信・ISW・テレビ朝日・Al Jazeera など17件の主張を積み上げる情報量は十分で、速報系で広く当たりを取る用途には向いています。

ただし Q2 では 66点で最下位でした。Next.js の cacheLife プロファイルに関して、

  • seconds プロファイルの stale 値を「0」と記載(正解は 30秒)。
  • default プロファイルの expire を「1年」と記載(正解は 無期限)。

いずれも公式ドキュメントを直接確認すれば防げる誤りです。原因は、cacheLife の値を nextjs.im というミラーサイトから取得したことにありました。出典の一次性が崩れると、幻覚が混入しやすい典型例と言えます。


Hybridが勝った理由は「冗長性」ではなく「相互検証」

全ツール自由の Hybrid は5勝しました。結果自体は想定内ですが、どのように勝ったかを見ると示唆があります。

  • Q1: 米軍発表と船舶追跡データの矛盾を RFE/RL 経由で明示。
  • Q6: 他ソース記載の「少額特例期限 2026年9月末」が誤記であることを、国税庁PDFとの照合で指摘。

つまり、単にツール数を増やして「量」で押すのではなく、別ツールで裏取りして不一致を解消している点が効いています。単独ツールで再現するには、プロンプトで「複数クエリでの相互検証」「一次ソース URL の必須確認」を明示的に要求するのが有効だと考えられます。


用途別の推奨

単一ツールで選ぶなら、以下が実務的な目安になります。

やりたいこと推奨
技術ドキュメント・API仕様Claude-Builtin > Exa
ニッチ専門(英語圏 DeFi 等)Exa 一択
日本語の制度・規制系Tavily-Research
数値fact(金額・年度)Claude-Builtin。Tavily-Research は避ける
最新ニュース速報Exa ≒ Tavily-Basic
AI モデル料金比較Tavily-Research ≒ Exa

汎用性で選ぶなら Exa です。6問中4問で2位以内、かつ最下位がありません。


本検証の限界

もちろん、完全なベンチマークではありません。

  • ジャッジが単体(当初設計の二重判定は時間都合で省略)。主観性が入りやすい「独自価値」10点にはバイアス余地があります。
  • サブエージェントのツール isolation はプロンプト制約のみで強制力がありません。Q5/Q6で一部サブエージェントが指示を逸脱して tavily_search を利用しました(-2ペナルティで補正)。
  • 「ニッチ」カテゴリが DeFi 寄りであり、別領域(医療・法律・学術)では異なる勝者になる可能性が高いです。

また、今回の検証で最も注意すべき前提として、各ツールを実際に運用した主体は Claude Sonnet 4.6 であり、結果はこのモデルの検索方針・要約方針に一定程度依存しています。モデルを差し替えた場合には、順位やスコアが変動する可能性があります。

ただし本企画の目的は、同一条件下で各ツールの情報収集能力を相対比較することにあります。同一モデルで揃えた比較としては、モデル差ではなくツール差を観察しやすくするという意味で、一定の検証意義があると考えています。


実務でのまとめ

基本的に Claude Code を使う際は Claude 組み込みの検索ツールを使う場面が多いですが、単体運用では情報収集能力に限界があることが分かりました。

月に1000回の無料枠がある Tavily は、タスクによっては Claude 組み込みツールを上回るケースがあり、併用する価値があります。一方で Tavily Research は検索コストが高く、無料枠を早期に消費しやすいため、常用には注意が必要です。

Exa については、次の2点が実務上の要点です。

  1. 一次ソースへの到達力が高いです。
  2. 基本的には有料ですが、無料で利用できるエンドポイントがあります。

これらを適切に組み合わせて使うことが、ハルシネーションを抑えながら正確な情報を集めるうえで有効だと分かりました。今後も用途に応じて使い分けていきます。

※こちらの記事は三代が企画、Cluade codeで検証環境整備、検証、評価、執筆を行い、最後に微修正を行い作成されています。

AI関連のコンテンツ開発をメインで行っています。最新ツールは基本的に何でも触るようにしています。

この記事は役に立ちましたか?

参考になりましたら、下のボタンで教えてください。

コメント

この記事へのコメントはありません。

関連記事

PAGE TOP
ログイン 協会に入会する
協会に入会する
目次