#OpenClaw #Gemini 3.1 Pro #Claude Opus 4.6 #Claude Sonnet 4.6 #MCP Atlas #AI Models #Benchmark

El enfrentamiento de los cerebros de IA: Ya está aquí Gemini 3.1 Pro. ¿Qué modelo ejecuta el mejor agente OpenClaw?

Gemini 3.1 Pro obtuvo un 69,2 % en MCP Atlas, el benchmark creado para probar exactamente lo que hace OpenClaw. Claude Opus 4.6 sigue siendo la recomendación oficial. Analizamos cinco benchmarks, cinco modelos y qué configuración es la ganadora para tu flujo de trabajo real.

@ AgentPuter Lab
$
~ Lectura de 14 min

El enfrentamiento de los cerebros de IA: Ya está aquí Gemini 3.1 Pro. ¿Qué


Hace dos días, Anthropic lanzó Claude Sonnet 4.6. Ayer, Google lanzó Gemini 3.1 Pro. La comparativa que realmente importa para los usuarios de OpenClaw muestra un ganador sorprendente, y está creando un debate genuino.

Serie sobre Infraestructura de Agentes · Parte 11 | Fecha de investigación: 19 de febrero de 2026


Hace dos días —el 17 de febrero— Anthropic lanzó Claude Sonnet 4.6.

Ayer —el 19 de febrero— Google lanzó Gemini 3.1 Pro.

La tabla comparativa que Google publicó junto con el lanzamiento ha estado circulando ampliamente. Una fila en particular hizo que los usuarios de OpenClaw se detuvieran en seco: MCP Atlas.


MCP Atlas es una evaluación comparativa creada por el equipo de investigación de Scale AI (arxiv 2602.00933). Utiliza 36 servidores MCP reales, 220 herramientas y 1.000 tareas diseñadas específicamente para evaluar qué tan bien un modelo de IA puede descubrir, seleccionar y orquestar llamadas a herramientas de múltiples pasos a través de


Ambas cosas son ciertas al mismo tiempo. Este es el porqué — y lo que significa para la forma en que debes configurar tu agente hoy.



Primero: la mayoría de los benchmarks son la pregunta equivocada

Antes de comparar modelos, necesitamos establecer qué medir. El conjunto estándar de benchmarks de IA —Humanity’s Last Exam, GPQA Diamond, MMLU— prueba la recuperación de conocimiento y el razonamiento sobre temas académicos. Para un chatbot de propósito general, estos importan. Para un agente OpenClaw que gestiona tu correo electrónico, calendario, repositorios de GitHub y navegador, son casi irrelevantes.

Los benchmarks que realmente predicen el rendimiento de un agente:


BenchmarkQué evalúaRelevancia para OpenClaw
MCP AtlasDescubrimiento, selección y orquestación de herramientas en múltiples servidores (36 servidores MCP reales, 220 herramientas)★★★★★ Esto es literalmente lo que hacen las Skills de OpenClaw
APEX-AgentsTareas profesionales de múltiples pasos y a largo plazo★★★★★ Flujos de trabajo de agentes del mundo real
τ2-benchEstabilidad en el uso de herramientas en simulaciones de venta al por menor y telecomunicaciones★★★★★ Fiabilidad en producción
GDPval-AA EloELO de tareas expertas en trabajos de conocimiento de alto valor★★★★ Rendimiento profesional compuesto
BrowseCompBúsqueda web agéntica con razonamiento de múltiples saltos★★★★ Skills de Navegador y Búsqueda
Terminal-Bench 2.0Precisión en la ejecución de comandos de terminal★★★★ Skills de administración de sistemas
SWE-Bench VerifiedReparación de errores de código en un solo intento★★★ Skills de codificación (útiles, no principales)
ARC-AGI-2Patrones de lógica abstracta novedosos★★★ Tareas de planificación complejas
GPQA Diamond / MMLURecuperación de conocimientos a nivel de posgrado★★ OpenClaw no está haciendo exámenes

Con ese filtro, así es como los contendientes realmente se comparan.



Los contendientes

Gemini 3.1 Pro — El nuevo aspirante

Lanzado ayer (19 de febrero), Gemini 3.1 Pro es la capa de razonamiento central mejorada de Google — la inteligencia que impulsa Gemini Deep Think, que ahora se está implementando para los desarrolladores a través de la API de Gemini, Vertex AI y Google AI Studio.

Dónde lidera:


  • MCP Atlas: 69,2 % — el más alto de todos los modelos probados, casi 10 puntos por delante de Claude Opus 4.6 (59,5 %)
  • APEX-Agents: 33,5 % — el más alto de todos los modelos probados
  • SWE-Bench Verified: 80,6 % — empata efectivamente con Claude Opus 4.6 (80,8 %) en fiabilidad de codificación
  • BrowseComp: 85,9 % — el más alto de todos los modelos probados (todos los modelos evaluados con navegación asistida por herramientas: búsqueda + Python + navegación)
  • ARC-AGI-2: 77,1 % — más del doble que el 31,1 % de Gemini 3 Pro, muy por delante de Opus 4.6 (68,8 %)
  • Ventana de contexto de 1 millón de tokens — iguala la escala de contexto de Claude; sin API de compactación de contexto

En qué se queda corto:


  • GDPval-AA Elo: 1317 — más de 300 puntos Elo por detrás de Claude Sonnet 4.6 (1633) y Opus 4.6 (1606) en tareas profesionales de expertos evaluadas por calificadores humanos
  • SWE-Bench Pro: 54.2% — por detrás de

Lanzado el 5 de febrero, Claude Opus 4.6 es lo que recomienda la documentación oficial de OpenClaw y contra lo que la mayoría de los desarrolladores de ClawHub han estado depurando sus Skills durante semanas.

Sus puntos fuertes:

  • SWE-Bench Verified: 80.8% — el más alto de todos los modelos
  • **Human

  • MCP Atlas: 59.5% — casi 10 puntos porcentuales por detrás de Gemini 3.1 Pro en el benchmark más alineado con la arquitectura de OpenClaw
  • Costo: $5 por millón de tokens de entrada, $25 por millón de tokens de salida (estándar, hasta 200K de contexto). Cuando las tareas superan los 200K tokens, el precio cambia a $10/$37.50 — aplicado a todos los tokens en la solicitud, no solo al excedente

Nuevas características clave (lanzamiento del 5 de febrero):


  • Ventana de contexto de 1M de tokens (beta): El primer modelo de clase Opus en alcanzar esta escala. El acceso requiere cumplir con los requisitos de nivel de Anthropic
  • API de Compactación de Contexto (beta): Resume automáticamente segmentos de conversación más antiguos a medida que las sesiones se acercan a los límites de contexto, permitiendo tareas de agente de larga duración sin interrupción manual — una capacidad que Gemini 3.1 Pro no tiene actualmente
  • Equipos de Agentes (alpha): Múltiples subagentes especializados ejecutándose en paralelo (frontend/backend/pruebas simultáneamente), disponible en Claude Code v2.1.32+ y la plataforma Cowork
  • Pensamiento Adaptativo (4 niveles): Ajusta automáticamente la profundidad del razonamiento — bajo/medio/alto/máximo — para controlar el consumo de tokens en tareas más simples
  • 128K tokens de salida: El doble que la generación anterior

Cómo usarlo en OpenClaw:

openclaw models set anthropic/claude-opus-4-6

Claude Sonnet 4.6 — El destacado oculto

Lanzado el 17 de febrero, Sonnet 4.6 contiene el resultado del benchmark que la mayoría de la gente encuentra genuinamente sorprendente:

GDPval-AA Elo: 1633 — la puntuación más alta de cualquier modelo en la comparación.

Esta no es una medición de nicho. GDPval-AA evalúa el rendimiento en tareas profesionales de alto valor — el tipo de trabajo de conocimiento donde los errores tienen consecuencias reales. Claude Sonnet 4.6 supera a Claude Opus 4.6 (1606), GPT-5.2 (1462) y Gemini 3.1 Pro (1317) en esta métrica.


También supera a Gemini 3.1 Pro en τ2-bench Retail (91,7 % frente a 90,8 %) y empata en MRCR v2 long-context retrieval (84,9 %). En pruebas internas, los usuarios de Claude Code prefirieron Sonnet 4.6 sobre Opus 4.5 en el 59 % de las


GPT-5.3-Codex — El especialista en codificación

GPT-5.3-Codex pertenece a una categoría separada de la discusión sobre agentes de propósito general. Es un especialista:

  • SWE-Bench Pro: 56.8% — el más alto de todos los modelos, superando a Gemini 3.1 Pro (54.2%)
  • Terminal-Bench 2.0: 77.3% — el más alto en el arnés Codex de OpenAI (autoinformado); en el arnés estándar Terminus-2, Gemini 3.1 Pro lidera con un 68.5%
  • APEX-Agents: 23.0% — el más bajo de todos los modelos probados

Para los flujos de trabajo de OpenClaw centrados en el código —depuración automatizada, refactorización, gestión de pipelines de CI/CD— vale la pena evaluar Codex 5.3. Para la orquestación general de agentes, no es la elección correcta.

Cómo usarlo en OpenClaw:


openclaw onboard —auth-choice openai-codex openclaw models set openai-codex/gpt-5.3-codex


---

### Kimi K2.5 — El disruptor de costes

No figura en la tabla oficial de benchmarks, pero vale la pena saberlo: Kimi K2.5 de Moonshot AI actualmente ocupa el puesto n.º 1 en tareas de selección de herramientas en la tabla de clasificación de agentes de OpenRouter, y su uso ha aumentado drásticamente esta semana. La documentación oficial de OpenClaw incluye soporte nativo:

```bash
openclaw models set moonshot/kimi-k2.5

---

Para flujos de trabajo sensibles al costo — especialmente aquellos con contexto en idioma chino — Kimi K2.5 ofrece un rendimiento de agente competitivo a una fracción del costo de la API de Claude. Es el modelo de más rápido crecimiento entre las implementaciones de OpenClaw en idioma chino en este momento.

---

---

## Cinco Benchmarks, Lado a Lado

| Benchmark | Gemini 3.1 Pro | Opus 4.6 | Sonnet 4.6 | GPT-5.3-Codex | Ganador |
|-----------|---------------|---------|-----------|--------------|--------|
| **MCP Atlas** (orquestación de herramientas) | **69.2%** | 59.5% | 61.3% | — | 🏆 Gemini |
| **APEX-Agents** (horizonte largo) | **33.5%** | 29.8% | — | 23.0% | 🏆 Gemini |
| **GDPval-AA Elo** (tareas de experto) | 1317 | 1606 | **1633** | — | 🏆 Sonnet |
| **τ2-bench Retail** (fiabilidad de herramientas) | 90.8% | **91.9%** | 91.7% | — | 🏆 Opus |
| **BrowseComp** (búsqueda agéntica) | **85.9%** | 84.0% | 74.7% | — | 🏆 Gemini |
| SWE-Bench Pro (codificación) | 54.2% | — | — | **56.8%** | 🏆 Codex |

---

Gemini 3.1 Pro gana 3 de 5 benchmarks agénticos principales. Claude Sonnet 4.6 encabeza el ELO de tareas expertas. Claude Opus 4.6 lidera en fiabilidad de herramientas. GPT-5.3-Codex domina la programación. Ningún modelo lo gana todo — y la respuesta correcta depende de qué benchmarks se ajustan a tu flujo de trabajo real de OpenClaw.

---

---

## ¿Qué modelo para qué flujo de trabajo?

---

| Caso de uso de OpenClaw | Modelo recomendado | Razón principal |
|------------------|------------------|------------|
| Clasificación de correos electrónicos + gestión de calendario (habilidades gog, mail) | **Sonnet 4.6** | GDPval-AA 1633 (#1 global), fuerte en tareas profesionales, 40% más barato que Opus |
| Automatización compleja entre sistemas (cadenas de 10+ pasos) | **Gemini 3.1 Pro** | MCP Atlas 69.2%, diseñado para orquestación de múltiples pasos entre servidores |
| Proyectos de larga duración + memoria persistente (SOUL.md, para-second-brain) | **Opus 4.6** | API de Compactación de Contexto + ventana de 1M = sesiones que sobreviven horas de llamadas a herramientas |
| Automatización de navegador + recopilación de inteligencia | **Gemini 3.1 Pro** | BrowseComp 85.9%, la puntuación más alta en búsqueda agéntica |
| Depuración de código / sprints de desarrollo | **GPT-5.3-Codex u Opus 4.6** | Codex por su precisión de reparación en bruto (autoinformada); Gemini y Opus esencialmente empatados en SWE-Bench Verified (80.6% vs 80.8%) |
| Tareas diarias ligeras, chat de alta frecuencia | **Sonnet 4.6** | Mejor relación costo-rendimiento — ~$0.90 por cada 100 pasos complejos |
| Flujos de trabajo en idioma chino con presupuesto limitado | **Kimi K2.5** | #1 en selección de herramientas en la tabla de clasificación de OpenRouter, una fracción del costo de Claude |
| Presupuesto cero / prioridad en la privacidad | **Gemini 2.5 Flash (gratis) u Ollama** | 1,500 solicitudes gratuitas/día; alternativas completamente locales a través de Ollama |

---

**Costo de un vistazo (flujo de trabajo complejo de 100 pasos):**

| Modelo | Costo estimado | Notas |
|-------|---------------|-------|
| Gemini 2.5 Flash | **$0** (nivel gratuito) | 1,500 solicitudes/día a través de Google AI Studio |
| Kimi K2.5 | ~$0.03 | API de Moonshot |
| Sonnet 4.6 | ~$0.90 | $3/$15 por millón de tokens |
| Gemini 3.1 Pro | ~$0.60 | $2/$12 por millón de tokens (≤200K); $4/$18 por encima de 200K |
| Opus 4.6 | ~$3.60 | Activa la tarifa de contexto largo por encima de 200K tokens |

---

---

## ¿Por qué la comunidad sigue usando Claude?

La verdadera pregunta: si Gemini 3.1 Pro lidera en MCP Atlas — el benchmark más relevante para la arquitectura de OpenClaw — ¿por qué la comunidad no ha cambiado?

**Razón 1: Benchmarks estandarizados vs. calidad de Skill en producción**

---

MCP Atlas prueba los modelos con 36 servidores MCP bien estructurados y que cumplen con el esquema. Las 3,286 Skills de la comunidad de OpenClaw varían enormemente — algunos archivos SKILL.md tienen descripciones de herramientas vagas, manejo de errores incompleto y formato no estándar. Claude maneja las llamadas a herramientas malformadas con mayor tolerancia y mejor recuperación. Las puntuaciones más altas de Gemini en los benchmarks asumen entradas limpias y bien formadas. En producción, la capacidad de un modelo para recuperarse de entradas incorrectas a menudo importa más que su puntuación con las bien formadas.

**Razón 2: El ecosistema se construyó en torno al comportamiento de Claude**

---

Miles de Skills de ClawHub se desarrollaron y depuraron basándose en las convenciones específicas de llamada a herramientas, los patrones de respuesta y las secuencias de recuperación de errores de Claude. Cambiar de modelo no es solo cambiar un valor de configuración, es recalibrar cómo se comporta toda tu pila de Skills. Ese es un coste de migración real que las cifras de los benchmarks no reflejan.

**Razón 3: La API de Context Compaction es un foso práctico y significativo**

---

Ambos modelos ahora tienen ventanas de contexto de 1 millón de tokens. Pero Claude Opus 4.6 (y Sonnet 4.6) incluyen la Context Compaction API — que resume automáticamente la conversación más antigua a medida que las sesiones se acercan al límite, permitiendo ejecuciones de agente indefinidamente largas sin reinicios manuales. Para las sesiones de OpenClaw que se ejecutan durante horas a través de cientos de llamadas a herramientas, esta es una capacidad que Gemini 3.1 Pro no tiene actualmente.

---

**En resumen:** Gemini 3.1 Pro es el modelo más atractivo para probar en este momento — especialmente para la automatización entre sistemas y los flujos de trabajo de navegador. Pero «obtiene una puntuación más alta en este benchmark» y «funcionará mejor en tu configuración específica de OpenClaw» son afirmaciones diferentes. Pruébalo en tus flujos de trabajo reales antes de decidir.

---

---

## Cómo Cambiar de Modelos en OpenClaw

OpenClaw utiliza la notación `proveedor/modelo` para todas las referencias a LLM. Cambiar es un solo comando:

```bash
# Ver el modelo actual
openclaw models list

# Cambiar a Gemini 3.1 Pro (establece GEMINI_API_KEY desde Google AI Studio primero)
export GEMINI_API_KEY="tu-clave"
openclaw models set google/gemini-3.1-pro-preview

# Volver a cambiar a Claude Opus 4.6 (predeterminado oficial recomendado)
openclaw models set anthropic/claude-opus-4-6

# Cambiar a Sonnet 4.6 (mejor eficiencia de costos)
openclaw models set anthropic/claude-sonnet-4-6

# Cambiar a GPT-5.3-Codex (se requiere inicio de sesión OAuth)
openclaw onboard --auth-choice openai-codex
openclaw models set openai-codex/gpt-5.3-codex

---

# Kimi K2.5 (sensible a los costos / idioma chino)
openclaw models set moonshot/kimi-k2.5

# Modelo completamente local a través de Ollama (gratis, privado)
openclaw models set ollama/qwen3.5

O configúralo en tu archivo de configuración (~/.openclaw/openclaw.json):

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "google/gemini-3.1-pro-preview"
      }
    }
  }
}

Una nota importante: Actualmente, OpenClaw no admite el enrutamiento automático de modelos por tarea en una única configuración — no hay una forma integrada de decir “usa Gemini para tareas de navegador, Claude para tareas de razonamiento” automáticamente. Los usuarios avanzados logran esto ejecutando múltiples instancias de OpenClaw con diferentes configuraciones de modelo, coordinadas a través del protocolo Agent2Agent. Para la mayoría de los usuarios: elige un modelo y ponlo a prueba con tu flujo de trabajo real.



Si no quieres lidiar con nada de esto: TinyClaw

Esta es una descripción justa de la situación: seis modelos contendientes, diez benchmarks relevantes, diferentes ganadores en diferentes escenarios, claves de API que gestionar, umbrales de precios de contexto que seguir y un nuevo lanzamiento de modelo importante cada once días.

La mayoría de los usuarios de OpenClaw no quieren gestionar esto constantemente. Quieren un agente que funcione.

TinyClaw se encarga de la decisión del modelo por ti:


  1. Despliegue en 60 segundos — OpenClaw funcionando en menos de un minuto, sin configuración de Node.js
  2. Recomendación inteligente de modelos — recomienda el mejor modelo para tu flujo de trabajo basado en patrones de uso reales
  3. Cambio de modelo con un solo clic — Gemini 3.1 Pro se lanzó ayer; TinyClaw ya lo soporta
  4. Controles de costos — panel de uso integrado con límites de presupuesto mensuales

El panorama de los modelos cambia cada once días. TinyClaw le hace seguimiento para que tú no tengas que hacerlo.

tinyclaw.dev · Gratis para empezar · Tu agente funcionando en 60 segundos



El Panorama General

Gemini 3.1 Pro: 19 de febrero. Claude Sonnet 4.6: 17 de febrero. Claude Opus 4.6: 5 de febrero. Días entre los últimos tres lanzamientos importantes: once.

Este ritmo significa que tu configuración de OpenClaw tiene una vida útil más corta que antes


Para la automatización entre sistemas y flujos de trabajo de navegador: prueba Gemini 3.1 Pro. Para tareas profesionales expertas con un presupuesto ajustado: Sonnet 4.6. Para sesiones de larga duración donde la persistencia del contexto es crítica: Opus 4.6 con Compactación de Contexto. Para trabajo de código puro: GPT-5.3-Codex.

Para todos los demás: TinyClaw.



*Datos de referencia: tabla oficial de benchmarks de Gemini 3.1 Pro (Google DeepMind, 19 de febrero de 2026). Metodología MCP Atlas: Scale AI Research, arxiv 2602.00933, scale.com/research/mcpatlas. Precios: documentación oficial de Anthropic (platform.claude.com/