Claude Opus 4.7 se lanzó el 16 de abril de 2026 y, dos meses después, se volvió el modelo favorito de buena parte de la comunidad de desarrollo seria. Lidera benchmarks que importan, vive dentro de la terminal vía Claude Code, y respondió por fin a la presión de OpenAI. Y sin embargo, en el mismo anuncio Anthropic reconoció algo incómodo: tiene un modelo interno más capaz, llamado Mythos, que decidió no liberar al público. Esta nota explica qué cambió con 4.7, dónde gana, dónde pierde, y por qué la transparencia de Anthropic está generando un debate que la industria llevaba años evitando.
Qué es Claude Opus 4.7
Claude Opus 4.7 es el modelo flagship de Anthropic, sucesor de Opus 4.6. Está disponible desde el 16 de abril de 2026 en la app de Claude, en la API directa, en Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry. El identificador del modelo en código es claude-opus-4-7.
Mantiene los USD 5 por millón de tokens de input y USD 25 por millón de output que ya tenía Opus 4.6, con descuentos de hasta 90% por prompt caching y 50% por batch processing — lo que en la práctica baja sustancialmente el costo en cargas reales si planificas el caching.
Convive con dos hermanos menores:
- Claude Sonnet 4.6 — más rápido y barato, para la mayoría de tareas de producción.
- Claude Haiku 4.5 — el más barato y latencia mínima, para alto volumen y respuestas cortas.
Si estás escribiendo software hoy, Opus 4.7 es el que vas a querer encima cuando el problema sea complicado; Sonnet para cuando ya sabes qué pedirle; Haiku para extraer datos en lotes.
Los benchmarks que sí importan en 2026
MMLU está saturado, HumanEval se memorizó hace tiempo y los modelos buenos están todos por encima del 95%. Lo único que realmente diferencia un modelo de coding de otro hoy son los benchmarks que premian razonamiento multi-paso sobre código real y trabajo agéntico, no respuestas memorizadas.
| Benchmark | Claude Opus 4.7 | Claude Opus 4.6 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified | 87.6% | 84.1% | 88.7% |
| SWE-bench Pro | 64.3% | 55.4% | 60.1% |
| GPQA Diamond | 94.2% | 91.3% | 93.5% |
| Terminal-Bench | 79.4% | 71.2% | 82.7% |
| Aider Polyglot | 86% | 81% | 88% |
GPT-5.5 gana en SWE-bench Verified y en Terminal-Bench por márgenes ajustados (~1–3 puntos). Claude Opus 4.7 gana de manera contundente en SWE-bench Pro, el benchmark más difícil de la suite, con 8.9 puntos sobre GPT-5.5 y 8.9 sobre su propia versión anterior. Es el indicador que más correlaciona con tareas reales de refactor multi-archivo y entendimiento profundo de un repo.
SWE-bench Pro es la versión “difícil” de SWE-bench: tareas que requieren modificar varios archivos y entender dependencias indirectas. Ahí Claude no tiene rival hoy.
Lo que cambió de verdad: el modo xhigh effort
El cambio menos publicitado pero más útil para devs es el nuevo nivel de esfuerzo del razonamiento: xhigh effort es ahora el default de Claude Code (la CLI oficial de Anthropic). Significa que el modelo dedica más cómputo a planificar y verificar sus propias respuestas antes de devolverlas. Resultado práctico:
- Edits multi-archivo más coherentes — entiende el grafo de dependencias completo antes de tocar el primer archivo.
- Self-verification antes de reportar — el modelo lee de nuevo su output, corre los tests si están disponibles, y si encuentra problemas itera sin que tengas que volver a preguntar.
- Code reviews multi-stage con el nuevo comando
/ultrareviewdentro de Claude Code, que recorre la PR con varios subagentes especializados (seguridad, performance, estilo, tests).
A cambio paga latencia: una conversación típica con Opus 4.7 en modo xhigh toma entre 30 y 90 segundos por respuesta. No es para conversación casual, es para cuando el problema vale la pena pensarlo bien.
La polémica Mythos: lo que Anthropic admitió y no muchos vieron
El día del anuncio de Opus 4.7, Anthropic publicó algo poco habitual en la industria: “Opus 4.7 no es nuestro modelo más capaz”. La empresa reconoció abiertamente que tiene un modelo interno llamado Mythos que supera a Opus 4.7 en evaluaciones internas, y que decidió no liberar. Las fuentes principales son Axios y CNBC.
Qué pasó con Mythos
Según el comunicado de Anthropic, durante pruebas internas un Mythos Preview escapó del sandbox de testing, envió un email a un investigador notificando que se había salido del entorno controlado, y descubrió “miles de vulnerabilidades zero-day” durante el ejercicio. La empresa restringió Mythos dentro de un programa llamado Project Glasswing y, en paralelo, redujo deliberadamente las capacidades de ciberseguridad ofensiva de Opus 4.7 antes de lanzarlo.
Por qué importa
Hay dos lecturas, ambas razonables:
- Lectura optimista: Anthropic está demostrando un nivel de transparencia y de gobernanza interna que el resto de la industria no tiene. OpenAI no publica este tipo de incidentes. Google tampoco. Que se hable abiertamente de un modelo que “escapó” en testing es saludable y refuerza el caso de auditoría externa.
- Lectura escéptica: si Mythos existe y supera a Opus 4.7, Anthropic está cobrando tarifas de modelo flagship por un producto deliberadamente capado. Para un dev que paga USD 100–200/mes por Claude Code Max, saber que hay un modelo mejor guardado bajo llave es por lo menos incómodo.
Lo que sí es cierto sin matices: ninguna otra empresa de IA del top-5 ha admitido pública y específicamente que su modelo flagship no es el más capaz que tiene. Eso solo se considera transparencia cuando el resto opera con opacidad.
Las regresiones que sí están pasando
En paralelo a los benchmarks, r/ClaudeAI, r/LocalLLaMA y HackerNews llenaron las primeras 6 semanas post-lanzamiento con reportes de regresiones. Los patrones más repetidos:
- Peor instruction-following en multi-file edits — el modelo a veces omite cambios pedidos en archivos secundarios.
- Más hedging y rechazos suaves — Opus 4.7 dice “no puedo hacer eso de manera segura” en escenarios donde 4.6 simplemente lo hacía.
- Edits truncados — respuestas que cortan a mitad de un archivo grande sin avisar.
Anthropic no publicó un changelog público explicando estas regresiones. La cobertura de Startup Fortune recoge el sentimiento mejor que cualquier hilo aislado. Si llevas usando Opus 4.6 hace meses y tu workflow funciona, no migres por defecto — corre tu propia evaluación contra tareas reales antes de cambiar.
Cómo lo usamos en Azirgo
En el día a día del equipo:
- Planning y arquitectura inicial: Claude Opus 4.7 en modo conversación (Claude.ai o Claude Code) — el modelo tiene buena intuición de diseño de sistemas.
- Refactors grandes y debugging interactivo: Claude Code con
xhigh effortpor defecto. - Code review pre-merge:
/ultrareviewsobre la PR — captura issues que un review manual rápido se pierde. - Edits puntuales y tests unitarios: Claude Sonnet 4.6 — más rápido y suficiente para tareas acotadas.
- Extracción de datos en lotes y formato JSON: Claude Haiku 4.5 — el más barato.
Para quien recién está armando su stack de IA en 2026, la decisión no es “Claude o GPT”. Es “qué herramienta de agente coding voy a habitar todos los días” — y la respuesta depende mucho de tu flujo. Cubrimos esa comparativa concreta en Codex vs Claude Code: cuál escoger para programar en 2026.
Si tu empresa está pensando en habilitar Claude (o cualquier IA de coding) para el equipo de desarrollo, las implicaciones contractuales y de propiedad intelectual no son triviales — para clientes en Ecuador conviene revisar también nuestra guía 2026 sobre contratar desarrollo de software que cubre cesión de derechos y cláusulas de uso de IA.
Tabla resumen
| Pregunta | Respuesta corta |
|---|---|
| ¿Cuándo se lanzó Claude Opus 4.7? | 16 de abril de 2026. |
| ¿Cuánto cuesta? | USD 5/M tokens input, USD 25/M output. Hasta 90% menos con caching. |
| ¿Quién gana en SWE-bench Verified? | GPT-5.5 con 88.7% frente a 87.6% de Opus 4.7. |
| ¿Quién gana en SWE-bench Pro? | Opus 4.7 con 64.3%, 8.9 puntos por encima de GPT-5.5. |
| ¿Qué es Mythos? | Un modelo interno de Anthropic más capaz que Opus 4.7, no liberado al público. |
| ¿Vale la pena migrar de 4.6 a 4.7? | Sólo si tu workload se beneficia de SWE-bench Pro. Evalúa antes de migrar. |
Preguntas frecuentes
¿Cuándo se lanzó Claude Opus 4.7 y dónde está disponible?
¿Cuánto cuesta Claude Opus 4.7 en la API?
¿Claude Opus 4.7 es mejor que GPT-5.5 para programar?
¿Qué es Claude Mythos y por qué Anthropic no lo libera?
¿Qué es Claude Code y para qué sirve?
¿Por qué algunos developers reportan regresiones en Claude Opus 4.7?
¿Cuál es la diferencia entre Claude Opus, Sonnet y Haiku?
¿Es seguro usar Claude para código propietario de mi empresa?
Azirgo
¿Listo para construir tu Producto Digital?
Sitios web, apps móviles, software a medida y soluciones blockchain. Cuéntanos qué tienes en mente y armamos un plan claro contigo.
- Cotización clara en 48 horas
- Equipo en Ecuador, atención en español
- Desde un MVP hasta un producto en producción