2日前、AnthropicがClaude Sonnet 4.6を、昨日、GoogleがGemini 3.1 Proをリリースしました。OpenClawユーザーにとって本当に重要なベンチマークが驚くべき勝者を示し、本格的な議論を巻き起こしています。

エージェントインフラストラクチャシリーズ · パート11 | 調査日: 2026年2月19日

2日前 — 2月17日 — AnthropicがClaude Sonnet 4.6をリリースしました。

昨日 — 2月19日 — GoogleがGemini 3.1 Proをリリースしました。

リリースと同時にGoogleが公開したベンチマーク表は広く出回っています。特にその中の一つの行が、スクロール中のOpenClawユーザーの目を釘付けにしました：MCP Atlas。

MCP Atlasは、Scale AIの研究チームによって構築されたベンチマークです(arxiv 2602.00933)。これは、36台の実在するMCPサーバー、220個のツール、そして1,000個のタスクを使用し、AIモデルがどのツールを事前に使用するかを指示されることなく、複数のサーバーにまたがるマルチステップのツール呼び出しを、いかにうまく発見、選択、そしてオーケストレーションできるかを評価するために特別に設計されています。

これは抽象的な定義ではありません。これはまさに、あなたがSkillを実行するたびにOpenClawが行っていることです。

MCP Atlasにおいて、Gemini 3.1 Proは69.2%のスコアを、Claude Opus 4.6は59.5%のスコアを記録しました。

それにもかかわらず、OpenClawの公式ドキュメントで推奨されているデフォルト設定は、依然として次のようになっています：

{ "model": { "primary": "anthropic/claude-opus-4-6" } }

この2つのことは、どちらも同時に真実です。その理由と、それによって今日のエージェントをどのように設定すべきかを説明します。

まずは: ほとんどのベンチマークは問いが間違っている

モデルを比較する前に、何を測定すべきかを確立する必要があります。標準的なAIベンチマーク群 — Humanity’s Last Exam、GPQA Diamond、MMLU — は、学術的なトピックに関する知識の想起と推論をテストします。汎用チャットボットにとっては、これらは重要です。メール、カレンダー、GitHubリポジトリ、ブラウザを管理するOpenClawエージェントにとって、それらはほとんど無関係です。

エージェントのパフォーマンスを実際に予測するベンチマーク:

ベンチマーク	テスト内容	OpenClawとの関連性
MCP Atlas	クロスサーバーでのツールの発見、選択、マルチステップのオーケストレーション（36台の実MCPサーバー、220個のツール）	★★★★★ これは文字通りOpenClawのスキルが実行することです
APEX-Agents	長期的でマルチステップの専門的なタスク	★★★★★ 実世界のエージェントワークフロー
τ2-bench	小売および電気通信シミュレーションにおけるツール使用の安定性	★★★★★ 本番環境での信頼性
GDPval-AA Elo	価値の高い知識労働における専門家タスクのELO	★★★★ 総合的な専門的パフォーマンス
BrowseComp	マルチホップ推論を伴うエージェントによるウェブ検索	★★★★ ブラウザおよび検索スキル
Terminal-Bench 2.0	ターミナルコマンドの実行精度	★★★★ システム管理スキル
SWE-Bench Verified	単一試行でのコードのバグ修正	★★★ コーディングスキル（有用だが、主要ではない）
ARC-AGI-2	新規の抽象的な論理パターン	★★★ 複雑なプランニングタスク
GPQA Diamond / MMLU	大学院レベルの知識の想起	★★ OpenClawは試験を受けるわけではない

そのフィルターを適用すると、各候補の実際の比較は次のようになります。

挑戦者たち

Gemini 3.1 Pro — 新たな挑戦者

昨日（2月19日）にリリースされたGemini 3.1 Proは、Googleのアップグレードされたコア推論レイヤーです。これはGemini Deep Thinkを動かす知能であり、現在、Gemini API、Vertex AI、そしてGoogle AI Studioを通じて開発者向けに順次提供されています。

優れている点：

MCP Atlas: 69.2% — テストされた全モデルの中で最高、Claude Opus 4.6 (59.5%)を10ポイント近く上回る
APEX-Agents: 33.5% — テストされた全モデルの中で最高
SWE-Bench Verified: 80.6% — コーディングの信頼性においてClaude Opus 4.6 (80.8%)と実質的に同等
BrowseComp: 85.9% — テストされた全モデルの中で最高（全モデルがツールアシストブラウジング：検索 + Python + ブラウズでベンチマーク）
ARC-AGI-2: 77.1% — Gemini 3 Proの31.1%の2倍以上、Opus 4.6 (68.8%)を大きく上回る
100万トークンのコンテキストウィンドウ — Claudeのコンテキストスケールに匹敵、Context Compaction APIはなし

劣っている点：

GDPval-AA Elo: 1317 — 人間の評価者によって評価された専門的なプロフェッショナルタスクにおいて、Claude Sonnet 4.6 (1633) および Opus 4.6 (1606) を300 Eloポイント以上下回る
**SWE-Bench Pro: 54.2%

2月5日にリリースされたClaude Opus 4.6は、OpenClawの公式ドキュメントが推奨するモデルであり、ほとんどのClawHub開発者が数週間にわたってスキルをデバッグする際に使用してきたものです。

優れている点：

SWE-Bench Verified: 80.8% — 全モデル中最高
Humanity’s Last Exam (with tools): 53.1% — 全モデル中最高
τ2-bench Telecom: 99.3% — Gemini 3.1 Pro（同じく99.3%）と並んで最高タイ
GDPval-AA Elo: 1606 — Claude Sonnet 4.6に次ぐ全体2位

劣っている点：

MCP Atlas: 59.5% — OpenClawのアーキテクチャに最も整合するベンチマークにおいて、Gemini 3.1 Proを約10パーセントポイント下回る
コスト: 入力100万トークンあたり5ドル、出力100万トークンあたり25ドル（標準、最大200Kコンテキスト）。タスクが200Kトークンを超えると、価格は10ドル/37.50ドルに切り替わります — 超過分だけでなく、リクエスト内の全トークンに適用されます

主な新機能（2月5日リリース）:

1Mトークンのコンテキストウィンドウ（ベータ版）: この規模に到達した初のOpusクラスモデル。アクセスにはAnthropicのティア要件を満たす必要があります
Context Compaction API（ベータ版）: セッションがコンテキストの制限に近づくと、古い会話セグメントを自動的に要約し、手動での中断なしに長時間のエイジェントタスクを可能にします — これは現在Gemini 3.1 Proにはない機能です
Agent Teams（アルファ版）: 複数の専門的なサブエージェントが並行して実行され（フロントエンド/バックエンド/テストが同時に）、Claude Code v2.1.32+およびCoworkプラットフォームで利用可能です
Adaptive Thinking（4レベル）: より単純なタスクでのトークン消費を制御するために、推論の深さ — 低/中/高/最大 — を自動的に調整します
128Kの出力トークン: 前世代から倍増

OpenClawでの使用方法:

openclaw models set anthropic/claude-opus-4-6

Claude Sonnet 4.6 — 隠れた逸材

2月17日にリリースされたSonnet 4.6には、ほとんどの人が真に驚くべきベンチマーク結果が含まれています：

GDPval-AA Elo: 1633 — 比較対象の全モデルの中で最高のスコア。

これはニッチな指標ではありません。GDPval-AAは、価値の高い専門的なタスク、つまりエラーが深刻な結果を招くようなナレッジワークにおけるパフォーマンスを評価するものです。この指標において、Claude Sonnet 4.6はClaude Opus 4.6 (1606)、GPT-5.2 (1462)、そしてGemini 3.1 Pro (1317)を上回っています。

また、τ2-bench RetailではGemini 3.1 Proを上回り（91.7%対90.8%）、MRCR v2の長文コンテキスト検索では同点（84.9%）です。社内テストでは、Claude Codeのユーザーは直接比較の59%で、Opus 4.5よりもSon

GPT-5.3-Codex — コーディングのスペシャリスト

GPT-5.3-Codexは、汎用エージェントの議論とは別のカテゴリーに属します。これはスペシャリストです：

SWE-Bench Pro: 56.8% — 全モデル中最高で、Gemini 3.1 Pro (54.2%) を上回ります
Terminal-Bench 2.0: 77.3% — OpenAIのCodexハーネスで最高（自己申告）。標準のTerminus-2ハーネスでは、Gemini 3.1 Proが68.5%でリードしています
APEX-Agents: 23.0% — テストされた全モデル中最低

コード中心のOpenClawワークフロー（自動デバッグ、リファクタリング、CI/CDパイプライン管理など）には、Codex 5.3は評価する価値があります。一般的なエージェントのオーケストレーションには、適切な選択ではありません。

OpenClawでの使用方法：

openclaw onboard —auth-choice openai-codex openclaw models set openai-codex/gpt-5.3-codex


---

### Kimi K2.5 — コストディスラプター

公式ベンチマーク表には含まれていませんが、知っておく価値があります。Moonshot AIのKimi K2.5は

---

コスト重視のワークフロー、特に中国語のコンテキストを持つものにおいて、Kimi K2.5はClaudeのAPIコストの数分の一で、競争力のあるエージェント性能を提供します。現在、中国語圏のOpenClawデプロイメントにおいて最も急成長しているモデルです。

---

---

## 5つのベンチマークの横並び比較

| ベンチマーク | Gemini 3.1 Pro | Opus 4.6 | Sonnet 4.6 | GPT-5.3-Codex | 勝者 |
|-----------|---------------|---------|-----------|--------------|--------|
| **MCP Atlas** (ツールオーケストレーション) | **69.2%** | 59.5% | 61.3% | — | 🏆 Gemini |
| **APEX-Agents** (長期計画) | **33.5%** | 29.8% | — | 23.0% | 🏆 Gemini |
| **GDPval-AA Elo** (専門家タスク) | 1317 | 1606 | **1633** | — | 🏆 Sonnet |
| **τ2-bench Retail** (ツールの信頼性) | 90.8% | **91.9%** | 91.7% | — | 🏆 Opus |
| **BrowseComp** (エージェント検索) | **85.9%** | 84.0% | 74.7% | — | 🏆 Gemini |
| SWE-Bench Pro (コーディング) | 54.2% | — | — | **56.8%** | 🏆 Codex |

---

Gemini 3.1 Proは、5つの中核的なエージェントベンチマークのうち3つで勝利しています。Claude Sonnet 4.6は、専門家タスクのELOでトップです。Claude Opus 4.6は、ツールの信頼性でリードしています。GPT-5.3-Codexはコーディングにおいて圧倒的です。単一のモデルがすべてを制するわけではありません — そして、最適な選択は、どのベンチマークがあなたの実際のOpenClawワークフローに合致するかによって決まります。

---

---

## どのワークフローにどのモデルを使うか

---

| OpenClawのユースケース | 推奨モデル | 主な理由 |
|------------------|------------------|------------|
| メールのトリアージ + カレンダー管理 (gog, mail Skills) | **Sonnet 4.6** | GDPval-AA 1633 (世界1位)、専門的なタスクに強く、Opusより40%安価 |
| 複雑なクロスシステム自動化 (10ステップ以上のチェーン) | **Gemini 3.1 Pro** | MCP Atlas 69.2%、クロスサーバーのマルチステップオーケストレーション向けに構築 |
| 長期プロジェクト + 永続メモリ (SOUL.md, para-second-brain) | **Opus 4.6** | Context Compaction API + 1Mウィンドウ = 何時間ものツール呼び出しに耐えるセッション |
| ブラウザ自動化 + 情報収集 | **Gemini 3.1 Pro** | BrowseComp 85.9%、最高のエージェント検索スコア |
| コードのデバッグ / 開発スプリント | **GPT-5.3-Codex または Opus 4.6** | 生の修正精度ではCodex (自己申告)、SWE-Bench VerifiedではGeminiとOpusはほぼ互角 (80.6% vs 80.8%) |
| 日常の軽量タスク、高頻度のチャット | **Sonnet 4.6** | 最高のコストパフォーマンス比 — 複雑な100ステップあたり約$0.90 |
| 予算に制約のある、中国語のワークフロー | **Kimi K2.5** | OpenRouterリーダーボードでツール選択1位、Claudeの数分の一のコスト |
| 予算ゼロ / プライバシー優先 | **Gemini 2.5 Flash (無料) または Ollama** | 1日1,500件の無料リクエスト。Ollama経由で完全にローカルな代替手段も利用可能 |

---

**一目でわかるコスト (100ステップの複雑なワークフロー):**

| モデル | 推定コスト | 備考 |
|---|---|---|
| Gemini 2.5 Flash | **$0** (無料利用枠) | Google AI Studio経由で1日あたり1,500リクエスト |
| Kimi K2.5 | 約$0.03 | Moonshot API |
| Sonnet 4.6 | 約$0.90 | 100万トークンあたり$3/$15 |
| Gemini 3.1 Pro | 約$0.60 | 100万トークンあたり$2/$12 (20万トークン以下); 20万トークン超は$4/$18 |
| Opus 4.6 | 約$3.60 | 20万トークンを超えると長文コンテキスト料金が適用される |

---

---

## なぜコミュニティは今もClaudeを使い続けているのか？

本質的な問いはこうです：OpenClawのアーキテクチャに最も関連性の高いベンチマークであるMCP AtlasでGemini 3.1 Proがリードしているのに、なぜコミュニティは乗り換えていないのでしょうか？

**理由1：標準化されたベンチマーク vs. 本番環境でのスキルの品質**

---

MCP Atlasは、36の適切に構造化され、スキーマに準拠したMCPサーバーでモデルをテストします。OpenClawの3,286のコミュニティスキルは多種多様です — 一部のSKILL.mdファイルには、曖昧なツール記述、不完全なエラー処理、非標準のフォーマットが含まれています。Claudeは不正な形式

---

何千ものClawHubスキルが、Claudeの特定のツール呼び出し規約、応答パターン、エラー回復シーケンスに合わせて開発・デバッグされました。モデルの切り替えは、単に設定値を変更するだけではありません。スキルスタック全体の動作を再調整することなのです。それは、ベンチマークの数値では捉えられない、実際の移行コストです。

**理由3：Context Compaction APIは、意味のある実践的な堀である**

---

現在、両方のモデルは100万トークンのコンテキストウィンドウを備えています。しかし、Claude Opus 4.6（およびSonnet 4.6）にはContext Compaction APIが搭載されています。これは、セッションが上限に近づくと古い会話を自動的に要約し、手動での再起動なしでエージェントを無期限に実行し続けることを

---

**結論として：**Gemini 3.1 Proは、今試すべき最も魅力的なモデルです — 特に、クロスシステムオートメーションやブラウザワークフローにおいては。しかし、「このベンチマークで高得点を記録する」ということと、「あなたの特定のOpenClawセットアップでより優れた性能を発揮する」ということは、別の主張です。決定を下す前に、ご

---

## OpenClawでのモデルの切り替え方

OpenClawは、すべてのLLM参照に`provider/model`表記を使用します。切り替えは単一のコマンドで行えます:

```bash
# 現在のモデルを確認
openclaw models list

# Gemini 3.1 Proに切り替え（最初にGoogle AI StudioからGEMINI_API_KEYを設定してください）
export GEMINI_API_KEY="your-key"
openclaw models set google/gemini-3.1-pro-preview

# Claude Opus 4.6（公式推奨のデフォルト）に戻す
openclaw models set anthropic/claude-opus-4-6

# Sonnet 4.6に切り替え（コスト効率が良い）
openclaw models set anthropic/claude-sonnet-4-6

# GPT-5.3-Codexに切り替え（OAuthログインが必要）
openclaw onboard --auth-choice openai-codex
openclaw models set openai-codex/gpt-5.3-codex

Kimi K2.5 (コスト重視 / 中国語)

openclaw models set moonshot/kimi-k2.5

Ollama経由の完全ローカルモデル (無料、プライベート)

openclaw models set ollama/qwen3.5


または、設定ファイル (`~/.openclaw/openclaw.json`) で設定します:

```json
{
  "agents": {
    "defaults": {
      "model": {
        "primary": "google/gemini-3.1-pro-preview"
      }
    }
  }
}

重要な注意点： OpenClawは現在、単一の設定でタスクごとにモデルを自動でルーティングする機能をサポートしていません。「ブラウザタスクにはGeminiを、推論タスクにはClaudeを使用する」といったことを自動的に指定する組み込みの方法はありません。パワーユーザーは、異なるモデル設定を持つ複数のOpenClawインスタンスを実行し、Agent2Agentプロトコルを介してそれらを連携させることで、これを実現しています。ほとんどのユーザーの場合：モデルを1つ選び、ご自身の実際のワークフローでそのベンチマークを行ってください。

このような面倒を避けたい場合：TinyClaw

現状をありのままに説明すると、6つの競合モデル、10の関連ベンチマーク、シナリオごとに異なる勝者、管理すべきAPIキー、追跡すべきコンテキスト料金のしきい値、そして11日ごとにリリースされる主要な新モデル、といった状況です。

ほとんどのOpenClawユーザーは、これを常に管理したいとは思っていません。彼らが望むのは、機能するエージェントです。

TinyClawが、モデルの選択を代行します：

60秒でデプロイ — Node.jsのセットアップ不要で、OpenClawが1分未満で実行
スマートなモデル推奨 — 実際の使用パターンに基づき、あなたのワークフローに最適なモデルを推奨
ワンクリックでのモデル切り替え — 昨日リリースされたGemini 3.1 Proに、TinyClawは既に対応済み
コスト管理 — 月ごとの予算上限キャップ付きの内蔵使用状況ダッシュボード

モデルのランドスケープは11日ごとに変化します。TinyClawがそれを追跡するので、あなたが気にする必要はありません。

→ tinyclaw.dev ・無料で開始・あなたのエージェントを60秒で実行

全体像

Gemini 3.1 Pro: 2月19日。 Claude Sonnet 4.6: 2月17日。 Claude Opus 4.6: 2月5日。直近の3つのメジャーリリース間の日数: 11日。

このペースは、あなたのOpenClaw設定の寿命

システム間の自動化とブラウザのワークフローには：Gemini 3.1 Pro をお試しください。予算を抑えた専門的なタスクには：Sonnet 4.6。コンテキストの維持が重要な長時間のセッションには：Context Compaction を備えた Opus 4.6。純粋なコーディング作業には：GPT-5.3-

*ベンチマークデータ: Gemini 3.1 Pro 公式ベンチマーク表 (Google DeepMind、2026年2月19日)。MCP Atlas 手法: Scale AI Research、arxiv 2602.00933、scale.com/research/mcpatlas。料金: Anthropic 公式ドキュメント (platform.claude.com