#OpenClaw #Gemini 3.1 Pro #Claude Opus 4.6 #Claude Sonnet 4.6 #MCP Atlas #AI Models #Benchmark

Le choc des cerveaux IA : Gemini 3.1 Pro vient de sortir. Quel modèle exécute le meilleur agent OpenClaw ?

Gemini 3.1 Pro a obtenu un score de 69,2 % sur MCP Atlas — le benchmark conçu pour tester précisément ce que fait OpenClaw. Claude Opus 4.6 reste la recommandation officielle. Nous analysons cinq benchmarks, cinq modèles, et quelle configuration est la plus performante pour votre flux de travail réel.

@ AgentPuter Lab
$
~ 14 min de lecture

Le choc des cerveaux IA : Gemini 3.1 Pro vient de sortir. Quel modèle exécute le meilleur agent OpenClaw ?


Il y a deux jours, Anthropic a lancé Claude Sonnet 4.6. Hier, Google a lancé Gemini 3.1 Pro. Le benchmark qui compte vraiment pour les utilisateurs d’OpenClaw révèle un gagnant surprenant — et cela suscite un véritable débat.

*Série sur l’Infrastructure des Agents · Partie 11 | Date de la recherche :


MCP Atlas est un benchmark créé par l’équipe de recherche de Scale AI (arxiv 2602.00933). Il utilise 36 serveurs MCP réels, 220 outils et 1 000 tâches spécifiquement conçues pour évaluer la capacité d’un modèle d’IA à découvrir, sélectionner et orchestrer des appels d


Ces deux choses sont vraies en même temps. Voici pourquoi — et ce que cela signifie pour la configuration de votre agent aujourd’hui.



Premièrement : la plupart des benchmarks posent la mauvaise question

Avant de comparer les modèles, nous devons établir ce qu’il faut mesurer. Le circuit standard des benchmarks d’IA — Humanity’s Last Exam, GPQA Diamond, MMLU — teste la restitution des connaissances et le raisonnement sur des sujets académiques. Pour un chatbot à usage général, ceux-ci sont importants.


BenchmarkCe qu’il évaluePertinence pour OpenClaw
MCP AtlasDécouverte, sélection et orchestration multi-étapes d’outils inter-serveurs (36 serveurs MCP réels, 220 outils)★★★★★ C’est littéralement ce que font les Compétences OpenClaw
APEX-AgentsTâches professionnelles multi-étapes à long horizon★★★★★ Flux de travail d’agent du monde réel
τ2-benchStabilité de l’utilisation des outils dans des simulations de vente au détail et de télécommunications★★★★★ Fiabilité en production
GDPval-AA EloELO de tâches expertes sur un travail de connaissance à haute valeur★★★★ Performance professionnelle composite
BrowseCompRecherche web agentique avec raisonnement multi-sauts★★★★ Compétences de Navigateur et de Recherche
Terminal-Bench 2.0Précision de l’exécution des commandes du terminal★★★★ Compétences d’administration système
SWE-Bench VerifiedRéparation de bogues de code en une seule tentative★★★ Compétences de codage (utiles, mais pas principales)
ARC-AGI-2Nouveaux modèles de logique abstraite★★★ Tâches de planification complexes
GPQA Diamond / MMLURappel de connaissances de niveau universitaire★★ OpenClaw ne passe pas d’examens

Avec ce filtre, voici comment les concurrents se comparent réellement.



Les Concurrents

Gemini 3.1 Pro — Le Nouveau Challenger

Sorti hier (le 19 février), Gemini 3.1 Pro est la couche de raisonnement principale améliorée de Google — l’intelligence qui alimente Gemini Deep Think, désormais en cours de déploiement pour les développeurs via l’API Gemini, Vertex AI et Google AI Studio.

Ses points forts :


  • MCP Atlas : 69,2 % — le plus élevé de tous les modèles testés, près de 10 points devant Claude Opus 4.6 (59,5 %)
  • APEX-Agents : 33,5 % — le plus élevé de tous les modèles testés
  • SWE-Bench Verified : 80,6 % — pratiquement à égalité avec Claude Opus 4.6 (80,8 %) en matière de fiabilité du codage
  • BrowseComp : 85,9 % — le plus élevé de tous les modèles testés (tous les modèles ont été évalués avec une navigation assistée par des outils : recherche + Python + navigation)
  • ARC-AGI-2 : 77,1 % — plus du double des 31,1 % de Gemini 3 Pro, bien en avance sur Opus 4.6 (68,8 %)
  • Fenêtre de contexte de 1 million de jetons — égale l’échelle de contexte de Claude ; pas d’API de Compactage de Contexte

Ses points faibles :


  • GDPval-AA Elo : 1317 — avec plus de 300 points Elo de retard sur Claude Sonnet 4.6 (1633) et Opus 4.6 (1606) sur des tâches professionnelles expertes évaluées par des évaluateurs humains
  • **SWE-Bench Pro : 54,

Sorti le 5 février, Claude Opus 4.6 est le modèle recommandé par la documentation officielle d’OpenClaw, et celui que la plupart des développeurs de ClawHub utilisent pour déboguer leurs Skills depuis des semaines.

Ses points forts :

  • SWE-Bench Verified : 80.8% — le plus élevé de tous les

  • MCP Atlas : 59,5 % — près de 10 points de pourcentage derrière Gemini 3.1 Pro sur le benchmark le plus aligné avec l’architecture d’OpenClaw
  • Coût : 5 $ par million de tokens d’entrée, 25 $ par million de tokens de sortie (standard, jusqu’à 200K de contexte). Lorsque les tâches dépassent 200K tokens, la tarification passe à 10 $/37,50 $ — appliqué à tous les tokens de la requête, pas seulement à l’excédent

Principales nouvelles fonctionnalités (version du 5 février) :


  • Fenêtre de contexte de 1 million de tokens (bêta) : Le premier modèle de classe Opus à atteindre cette échelle. L’accès nécessite de satisfaire aux exigences de niveau d’Anthropic
  • API de Compactage de Contexte (bêta) : Résume automatiquement les segments de conversation plus anciens à mesure que les sessions approchent des limites de contexte, permettant des tâches d’agent de longue durée sans interruption manuelle — une capacité que Gemini 3.1 Pro ne possède pas actuellement
  • Équipes d’Agents (alpha) : Plusieurs sous-agents spécialisés s’exécutant en parallèle (frontend/backend/tests simultanément), disponible dans Claude Code v2.1.32+ et la plateforme Cowork
  • Pensée Adaptative (4 niveaux) : Ajuste automatiquement la profondeur de raisonnement — bas/moyen/élevé/max — pour contrôler la consommation de tokens sur les tâches plus simples
  • 128K tokens en sortie : Doublé par rapport à la génération précédente

Comment l’utiliser dans OpenClaw :

openclaw models set anthropic/claude-opus-4-6

Claude Sonnet 4.6 — La révélation cachée

Sorti le 17 février, Sonnet 4.6 contient le résultat de benchmark que la plupart des gens trouvent vraiment surprenant :

GDPval-AA Elo : 1633 — le score le plus élevé de tous les modèles de la comparaison.

Ce n’est pas une mesure de niche. GDPval-AA évalue les performances sur des tâches professionnelles à haute valeur ajoutée — le type de travail intellectuel où les erreurs ont de réelles conséquences. Claude Sonnet 4.6 surpasse Claude Opus 4.6 (1606), GPT-5.2 (1462), et Gemini 3.1 Pro (1317) sur cette mesure.


Il surpasse également Gemini 3.1 Pro sur τ2-bench Retail (91,7 % contre 90,8 %) et est à égalité sur la récupération de contexte long MRCR v2 (84,9 %). Lors de tests internes, les utilisateurs de Claude Code ont préféré Sonnet 4.6 à Opus 4.5 dans 59 % des compara


GPT-5.3-Codex — Le spécialiste du codage

GPT-5.3-Codex appartient à une catégorie distincte de la discussion sur les agents à usage général. C’est un spécialiste :

  • SWE-Bench Pro : 56,8 % — le plus élevé de tous les modèles, battant Gemini 3.1 Pro (54,2 %)
  • Terminal-Bench 2.0 : 77,3 % — le plus élevé sur le harnais Codex d’OpenAI (auto-déclaré) ; sur le harnais standard Terminus-2, Gemini 3.1 Pro est en tête avec 68,5 %
  • APEX-Agents : 23,0 % — le plus bas de tous les modèles testés

Pour les flux de travail OpenClaw centrés sur le code — débogage automatisé, refactoring, gestion de pipeline CI/CD — Codex 5.3 mérite d’être évalué. Pour l’orchestration générale d’agents, ce n’est pas le bon choix.

Comment l’utiliser dans OpenClaw :


openclaw onboard —auth-choice openai-codex openclaw models set openai-codex/gpt-5.3-codex


---

### Kimi K2.5 — Le perturbateur de coûts

Absent du tableau de référence officiel, mais il est bon de savoir que Kimi K2.5 de Moonshot AI est actuellement classé n°1 pour les tâches de sélection d'outils dans le classement des agents OpenRouter, et son utilisation a fortement augmenté cette semaine. La documentation officielle d'OpenClaw inclut une prise en charge native :

```bash
openclaw models set moonshot/kimi-k2.5

---

Pour les workflows sensibles aux coûts — en particulier ceux avec un contexte en langue chinoise — Kimi K2.5 offre des performances d'agent compétitives à une fraction du coût de l'API de Claude. C'est actuellement le modèle qui connaît la plus forte croissance parmi les déploiements OpenClaw en langue chinoise.

---

---

## Cinq bancs d'essai, côte à côte

| Banc d'essai | Gemini 3.1 Pro | Opus 4.6 | Sonnet 4.6 | GPT-5.3-Codex | Gagnant |
|-----------|---------------|---------|-----------|--------------|--------|
| **MCP Atlas** (orchestration d'outils) | **69,2 %** | 59,5 % | 61,3 % | — | 🏆 Gemini |
| **APEX-Agents** (horizon long) | **33,5 %** | 29,8 % | — | 23,0 % | 🏆 Gemini |
| **GDPval-AA Elo** (tâches expertes) | 1317 | 1606 | **1633** | — | 🏆 Sonnet |
| **τ2-bench Retail** (fiabilité des outils) | 90,8 % | **91,9 %** | 91,7 % | — | 🏆 Opus |
| **BrowseComp** (recherche agentique) | **85,9 %** | 84,0 % | 74,7 % | — | 🏆 Gemini |
| SWE-Bench Pro (codage) | 54,2 % | — | — | **56,8 %** | 🏆 Codex |

---

Gemini 3.1 Pro remporte 3 des 5 principaux benchmarks agentiques. Claude Sonnet 4.6 est en tête de l'ELO des tâches expertes. Claude Opus 4.6 est en tête pour la fiabilité des outils. GPT-5.3-Codex domine le codage. Aucun modèle ne remporte tout — et la bonne réponse dépend des benchmarks qui correspondent à votre flux de travail OpenClaw réel.

---

---

## Quel modèle pour quel flux de travail ?

---

| Cas d'utilisation d'OpenClaw | Modèle recommandé | Raison principale |
|------------------|------------------|------------|
| Tri des e-mails + gestion de calendrier (compétences gog, mail) | **Sonnet 4.6** | GDPval-AA 1633 (#1 mondial), performant sur les tâches professionnelles, 40 % moins cher qu'Opus |
| Automatisation inter-systèmes complexe (chaînes de 10+ étapes) | **Gemini 3.1 Pro** | MCP Atlas 69,2 %, conçu pour l'orchestration multi-étapes inter-serveurs |
| Projets de longue durée + mémoire persistante (SOUL.md, para-second-brain) | **Opus 4.6** | API Context Compaction + fenêtre de 1M = sessions qui survivent à des heures d'appels d'outils |
| Automatisation du navigateur + collecte de renseignements | **Gemini 3.1 Pro** | BrowseComp 85,9 %, score le plus élevé en recherche agentique |
| Débogage de code / sprints de développement | **GPT-5.3-Codex ou Opus 4.6** | Codex pour la précision de réparation brute (auto-déclarée) ; Gemini et Opus essentiellement à égalité sur SWE-Bench Verified (80,6 % contre 80,8 %) |
| Tâches légères quotidiennes, chat à haute fréquence | **Sonnet 4.6** | Meilleur rapport coût-performance — ~0,90 $ pour 100 étapes complexes |
| Flux de travail à budget limité en langue chinoise | **Kimi K2.5** | Sélection d'outil n°1 sur le classement OpenRouter, une fraction du coût de Claude |
| Budget zéro / priorité à la confidentialité | **Gemini 2.5 Flash (gratuit) ou Ollama** | 1 500 requêtes gratuites/jour ; alternatives entièrement locales via Ollama |

---

**Aperçu des coûts (flux de travail complexe de 100 étapes) :**

| Modèle | Coût estimé | Remarques |
|-------|---------------|-------|
| Gemini 2.5 Flash | **0 $** (niveau gratuit) | 1 500 req/jour via Google AI Studio |
| Kimi K2.5 | ~0,03 $ | Moonshot API |
| Sonnet 4.6 | ~0,90 $ | 3 $/15 $ par million de tokens |
| Gemini 3.1 Pro | ~0,60 $ | 2 $/12 $ par million de tokens (≤200K) ; 4 $/18 $ au-dessus de 200K |
| Opus 4.6 | ~3,60 $ | Déclenche le tarif pour contexte long au-dessus de 200K tokens |

---

---

## Pourquoi la communauté utilise-t-elle encore Claude ?

La vraie question : si Gemini 3.1 Pro est en tête sur MCP Atlas — le benchmark le plus pertinent pour l'architecture d'OpenClaw — pourquoi la communauté n'a-t-elle pas changé ?

**Raison 1 : Benchmarks standardisés vs. qualité des Skills en production**

---

MCP Atlas teste les modèles sur 36 serveurs MCP bien structurés et conformes au schéma. Les 3 286 Skills communautaires d'OpenClaw varient énormément — certains fichiers SKILL.md ont des descriptions d'outils vagues, une gestion des erreurs incomplète et un formatage non standard. Claude gère les appels d'outils malformés avec une tolérance plus élevée et une meilleure récupération. Les scores de benchmark plus élevés de Gemini supposent des entrées propres et bien formées. En production, la capacité d'un modèle à se remettre d'entrées incorrectes est souvent plus importante que son score sur des entrées bien formées.

**Raison 2 : L'écosystème a été construit autour du comportement de Claude**

---

Des milliers de Skills ClawHub ont été développées et déboguées en fonction des conventions d'appel d'outils, des schémas de réponse et des séquences de récupération d'erreurs spécifiques à Claude. Changer de modèle ne se résume pas à modifier une valeur de configuration — cela implique de recalibrer le comportement de toute votre pile de Skills. C'est un coût de migration réel que les chiffres des benchmarks ne capturent pas.

**Raison 3 : L'API Context Compaction est un avantage concurrentiel pratique et significatif**

---

Les deux modèles disposent désormais de fenêtres de contexte de 1 million de tokens. Mais Claude Opus 4.6 (et Sonnet 4.6) incluent l'API Context Compaction — qui résume automatiquement les conversations plus anciennes à mesure que les sessions approchent de la limite, permettant des exécutions d'agent indéfiniment longues sans redémarrages manuels. Pour les sessions OpenClaw s'exécutant pendant des heures sur des centaines d'appels d'outils, c'est une capacité que Gemini 3.1 Pro ne possède pas actuellement.

---

**En résumé :** Gemini 3.1 Pro est le modèle le plus intéressant à tester actuellement — en particulier pour l'automatisation inter-systèmes et les flux de travail de navigateur. Mais « il obtient un score plus élevé sur ce benchmark » et « il fonctionnera mieux dans votre configuration OpenClaw spécifique » sont des affirmations différentes. Testez-le sur vos flux de travail réels avant de décider.

---

---

## Comment Changer de Modèles dans OpenClaw

OpenClaw utilise la notation `fournisseur/modèle` pour toutes les références de LLM. Le changement s'effectue avec une seule commande :

```bash
# Voir le modèle actuel
openclaw models list

# Passer à Gemini 3.1 Pro (définissez d'abord GEMINI_API_KEY depuis Google AI Studio)
export GEMINI_API_KEY="votre-clé"
openclaw models set google/gemini-3.1-pro-preview

# Revenir à Claude Opus 4.6 (défaut officiel recommandé)
openclaw models set anthropic/claude-opus-4-6

# Passer à Sonnet 4.6 (meilleure rentabilité)
openclaw models set anthropic/claude-sonnet-4-6

# Passer à GPT-5.3-Codex (connexion OAuth requise)
openclaw onboard --auth-choice openai-codex
openclaw models set openai-codex/gpt-5.3-codex

Kimi K2.5 (sensible au coût / langue chinoise)

openclaw models set moonshot/kimi-k2.5

Modèle entièrement local via Ollama (gratuit, privé)

openclaw models set ollama/qwen3.5


Ou définissez-le dans votre fichier de configuration (`~/.openclaw/openclaw.json`) :

```json
{
  "agents": {
    "defaults": {
      "model": {
        "primary": "google/gemini-3.1-pro-preview"
      }
    }
  }
}

Une remarque importante : OpenClaw ne prend pas en charge actuellement le routage automatique des modèles par tâche dans une seule configuration — il n’y a pas de moyen intégré pour dire automatiquement « utiliser Gemini pour les tâches de navigation, Claude pour les tâches de raisonnement ». Les utilisateurs avancés y parviennent en exécutant plusieurs instances d’OpenClaw avec différentes configurations de modèles, coordonnées via le protocole Agent2Agent. Pour la plupart des utilisateurs : choisissez un modèle et évaluez-le par rapport à votre flux de travail réel.



Si vous ne voulez pas vous occuper de tout ça : TinyClaw

Voici une description juste de la situation : six modèles concurrents, dix benchmarks pertinents, des gagnants différents selon les scénarios, des clés API à gérer, des seuils de tarification de contexte à suivre, et une nouvelle version majeure de modèle tous les onze jours.

La plupart des utilisateurs d’OpenClaw ne veulent pas gérer cela en permanence. Ils veulent un agent qui fonctionne.

TinyClaw prend la décision du modèle pour vous :


  1. Déploiement en 60 secondes — OpenClaw opérationnel en moins d’une minute, sans configuration Node.js
  2. Recommandation de modèle intelligente — recommande le meilleur modèle pour votre flux de travail en fonction des modèles d’utilisation réels
  3. Changement de modèle en un clic — Gemini 3.1 Pro a été lancé hier ; TinyClaw le prend déjà en charge
  4. Contrôle des coûts — tableau de bord d’utilisation intégré avec des plafonds budgétaires mensuels

Le paysage des modèles change tous les onze jours. TinyClaw le suit pour que vous n’ayez pas à le faire.

tinyclaw.dev · Gratuit pour commencer · Votre agent opérationnel en 60 secondes



La vue d’ensemble

Gemini 3.1 Pro : 19 février. Claude Sonnet 4.6 : 17 février. Claude Opus 4.6 : 5 février. Jours entre les trois dernières versions majeures : onze.

Ce rythme signifie que votre configuration OpenClaw a une durée de vie plus courte qu’auparavant. Le modèle qui est optimal aujourd’hui a de fortes chances d’être sous-optimal d’ici le mois prochain.

La réponse pratique n’est pas de réévaluer chaque tableau de benchmarks dès sa publication. C’est de comprendre quels sont les trois ou quatre benchmarks qui prédisent réellement les performances dans votre flux de travail spécifique — et de savoir sur quels leviers agir lorsqu’une meilleure option apparaît.


Pour l’automatisation inter-systèmes et les flux de travail sur navigateur : testez Gemini 3.1 Pro. Pour les tâches professionnelles expertes à petit budget : Sonnet 4.6. Pour les sessions de longue durée où la persistance du contexte est critique : Opus 4.6 avec Context Compaction. Pour le travail de code pur : GPT-5.3-Codex.

Pour tous les autres : TinyClaw.



*Données de benchmark : tableau de benchmark officiel de Gemini 3.1 Pro (Google DeepMind, 19 février 2026). Méthodologie MCP Atlas : Scale AI Research, arxiv 2602.00933, scale.com/research/mcpatlas. Tarifs : documentation officielle d’Anthropic (platform.claude.