OpenAI sacó GPT-5.5 el 23 de abril de 2026 y no es un version bump cosmético. Lidera Terminal-Bench 2.0 con 82.7%, gana en uso de computadora autónomo, mete contexto de 1M de tokens en la API y rompe estado del arte en razonamiento de contexto largo. Al mismo tiempo, dobla el precio de input y output respecto a GPT-5.4, sigue perdiendo contra Claude Opus 4.7 en SWE-Bench Pro y mueve el techo de OpenAI a una zona donde la pregunta ya no es “¿cuál es más inteligente?” sino “¿cuánto vas a pagar por la inteligencia extra?”.
Este post lo abrimos como dev que ya tiene una factura mensual con OpenAI o Anthropic y necesita decidir si migrar, mantenerse o dividir el workload. No es un anuncio rebrandeado: son benchmarks reales, números de precio que duelen, las capacidades agénticas que sí importan y la guía práctica para usar GPT-5.5 sin desangrar el presupuesto.
Qué es GPT-5.5
GPT-5.5 es el modelo flagship de OpenAI desde abril de 2026, sucesor de GPT-5.4 y de la corta vida de GPT-5.3-Codex. El nombre del modelo en la API es gpt-5.5, su hermano mayor es gpt-5.5-pro. La novedad técnica principal es que no es un fine-tune sobre GPT-5.4: OpenAI lo describe como un reentreno completo del base model, con una arquitectura omnimodal nativa — texto, imagen, audio y video procesados en el mismo grafo en lugar de adaptadores separados.
Convive con la familia anterior, no la reemplaza inmediatamente:
- GPT-5.5 Pro — mismo modelo con más cómputo de reasoning, pensado para tareas largas y exigentes.
- GPT-5.5 — el caballo de batalla, el que vas a usar el 95% del tiempo.
- GPT-5.4 — sigue disponible y costando la mitad; para tareas estándar es competitivo.
- GPT-5.3-Codex — barato, especializado en código, vigente para flujos masivos.
OpenAI describió el lanzamiento en su post oficial como “el modelo más intuitivo de OpenAI”. Las cifras de Terminal-Bench 2.0 y los reportes independientes en Vellum y Interesting Engineering lo respaldan, con matices que valen la pena revisar antes de migrar.
Los benchmarks: dónde gana y dónde no
Olvidate de MMLU. En 2026 los modelos frontier viven todos por encima del 90% y el benchmark perdió señal. Lo que diferencia un modelo de otro hoy son agentic coding (resolver tickets reales sin supervisión), uso de computadora (operar software con mouse y teclado) y razonamiento de contexto largo (entender un repo de 500k tokens sin perderse).
| Benchmark | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Líder |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 71.5% | 69.4% | GPT-5.5 |
| SWE-Bench Pro | 58.6% | 55.0% | 64.3% | Claude |
| ARC-AGI-2 | 85.0% | 72.0% | 75.8% | GPT-5.5 |
| CyberGym | 81.8% | 70.1% | 73.1% | GPT-5.5 |
| OSWorld-Verified (computer use) | 78.7% | 65.2% | 71.0% | GPT-5.5 |
| Long-context 512K-1M | 74.0% | 36.6% | 60.5% | GPT-5.5 |
| Humanity’s Last Exam (no tools) | 41.4% | 38.0% | 46.9% | Claude |
Lectura honesta:
- GPT-5.5 gana en uso agéntico de la computadora y contexto largo. Si tu workflow es “dale acceso al modelo a una VM y dejá que opere”, esto importa muchísimo. El salto de 36.6% a 74.0% en contexto largo es lo más espectacular del lanzamiento.
- Claude Opus 4.7 sigue siendo mejor en código real complicado. Los 5.7 puntos que Claude saca en SWE-Bench Pro son la diferencia entre que el modelo termine un refactor multi-archivo o se quede a mitad de camino. Es lo mismo que vimos en el post de Claude 4.7 y la comparativa de Codex vs Claude Code.
- GPT-5.5 gana en razonamiento puro pero pierde en exámenes de conocimiento sin herramientas. Humanity’s Last Exam mide qué sabe el modelo, no qué puede hacer con herramientas. Ahí Claude lleva ventaja.
La conclusión es la misma del trimestre anterior con apuntes nuevos: GPT-5.5 es más fuerte en tareas agénticas y de operación; Claude Opus 4.7 sigue siendo más fuerte en código. Pero el margen se cerró: en SWE-Bench Pro, GPT-5.5 ya supera a su propio predecesor por 3.6 puntos.
El precio: dobla el de GPT-5.4
Acá está el pero serio. OpenAI subió el costo de la API significativamente:
| Modelo | Input por 1M tokens | Output por 1M tokens | Contexto |
|---|---|---|---|
| GPT-5.5 | USD 5.00 | USD 30.00 | 1M (400K en Codex) |
| GPT-5.5 Pro | USD 30.00 | USD 180.00 | 1M |
| GPT-5.4 | USD 2.50 | USD 15.00 | 1M |
| Claude Opus 4.7 | USD 5.00 | USD 25.00 | 1M |
| Claude Sonnet 4.6 | USD 3.00 | USD 15.00 | 1M |
Comparado con GPT-5.4, GPT-5.5 dobla el input y el output — exactamente. Comparado con Claude Opus 4.7, está igualado en input y un 20% más caro en output. Para un agente de coding que genera mucha respuesta, ese 20% se nota al final del mes.
GPT-5.5 Pro a USD 30 input / USD 180 output es 6× más caro que GPT-5.5 estándar. Solo tiene sentido para casos donde la calidad marginal compensa: investigación científica, análisis legal, tareas con resultado verificable que justifique el costo.
OpenAI sostiene que GPT-5.5 usa 40% menos tokens de output que GPT-5.4 para tareas equivalentes en Codex. Si la afirmación se sostiene en tu workload, el costo efectivo sube menos de lo que parece — pero seguís pagando más por token, así que solo aplica si tu carga es output-bound y el modelo está genuinamente siendo más conciso.
Cómo cambiar al modelo desde la API
Si ya tenés código con OpenAI SDK, la migración es de una línea:
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.5",
input="Refactoriza el siguiente componente React para usar Server Components...",
reasoning={"effort": "high"},
)
print(response.output_text)
El parámetro reasoning.effort acepta minimal, low, medium y high. Para tareas de agente real, high es lo que querés — y es lo que la API factura más caro, porque consume tokens internos de reasoning además del output visible.
Lo que sí cambia: capacidades agénticas
Tres cosas concretas que diferencian a GPT-5.5 de su antecesor para un dev que escribe agentes:
- Uso de computadora estable. En OSWorld-Verified, 78.7% es el primer modelo que cruza el umbral donde se puede confiar un flujo end-to-end (buscar en navegador, abrir un PDF, copiar a una hoja de cálculo) sin supervisión constante. GPT-5.4 estaba en 65.2%, suficiente para demos, insuficiente para producción.
- Persistencia en contexto largo. El 74% en evaluaciones 512K-1M significa que podés volcar un repositorio mediano completo y pedir cambios sin que el modelo “se olvide” del primer archivo cuando llega al último.
- Razonamiento multi-paso medible. ARC-AGI-2 con 85% empezó a separar modelos de verdad. GPT-5.5 se sienta solo en la cima de ese benchmark; Claude está en 75.8%.
Estas tres son las que importan si tu producto incluye un agente que opera por su cuenta. Si lo que escribís son endpoints de chat con un prompt sistema, la diferencia con GPT-5.4 va a ser perceptible pero no transformadora.
Cuándo usar GPT-5.5 (y cuándo no)
La regla rápida después de un mes de uso:
- Usá GPT-5.5 cuando: necesitás contexto largo real (más de 200k tokens), tu agente opera una computadora o navegador, o el resultado tiene que ser correcto en una pasada sin iteración.
- Quedate en GPT-5.4 cuando: tu uso es chat normal, generación de texto, análisis de datos sobre prompts de menos de 100k tokens, o sos sensible al costo. El gap de calidad ya no justifica 2× el precio en muchos workloads cotidianos.
- Mirá Claude Opus 4.7 cuando: el trabajo es código complejo multi-archivo, donde los 5.7 puntos extra en SWE-Bench Pro y los 40% menos de tokens de hedging se traducen en menos iteraciones.
- GPT-5.5 Pro solo si: cada tarea cuesta verificable y la diferencia marginal compensa pagar 6×. Para el 99% de devs, no.
Patrón híbrido: router por tarea
El patrón que más vemos en producción este mes es un router de modelos por tipo de tarea. Algo así:
async function routeRequest(task: Task) {
if (task.kind === "computer_use" || task.context > 200_000) {
return runWith("gpt-5.5")
}
if (task.kind === "code_refactor" || task.kind === "review") {
return runWith("claude-opus-4-7")
}
return runWith("gpt-5.4") // chat, generación, análisis ligero
}
No es elegante, pero refleja la realidad: en 2026 ningún modelo gana en todo. El equipo que pretende usar uno solo paga 20-40% de más en su factura mensual sin ganar calidad en el caso promedio.
Lo incómodo del lanzamiento
Dos cosas que conviene saber antes de migrar:
- API access “coming soon”. Al momento del lanzamiento el modelo estaba vivo en ChatGPT y Codex pero la API pública entró en rollout gradual. Si dependés del modelo en producción, planificá la migración una vez que tu organización tenga acceso confirmado.
- Sin caching de prompts publicado. OpenAI tiene cached input pricing en otros modelos (típicamente 25-50% del costo normal). Para GPT-5.5 no hay tabla pública al momento de escribir esto. Eso significa que workloads con prompts largos y repetidos no pueden estimar bien el costo real todavía.
Tampoco hay reporte de regresiones masivas como las que reportamos con Claude Opus 4.7 en sus primeras semanas. Subreddits como r/OpenAI muestran sentimiento mayoritariamente positivo, con quejas centradas en el costo y no en la calidad. Eso es buena señal — significa que el reentreno completo no introdujo regresiones evidentes.
Tabla resumen
| Pregunta | Respuesta corta |
|---|---|
| ¿Cuándo se lanzó? | 23 de abril de 2026 |
| ¿Cuál es el ID del modelo en la API? | gpt-5.5 y gpt-5.5-pro |
| ¿Cuánto cuesta? | USD 5 input / USD 30 output por millón (Pro: 6× más) |
| ¿En qué gana sobre GPT-5.4? | Uso de computadora, contexto largo, ARC-AGI-2 |
| ¿En qué pierde contra Claude Opus 4.7? | SWE-Bench Pro y Humanity’s Last Exam |
| ¿Cuándo migrar? | Si tu workload depende de contexto largo o uso autónomo de software |
Preguntas frecuentes
¿GPT-5.5 reemplaza a GPT-5.4 en la API?
¿Qué diferencia hay entre GPT-5.5 y GPT-5.5 Pro?
¿GPT-5.5 supera a Claude Opus 4.7 para programar?
¿Cuánto cuesta GPT-5.5 comparado con Claude Opus 4.7?
¿Funciona GPT-5.5 con el SDK de OpenAI existente?
¿Tiene caching de prompts como otros modelos?
¿Cuál es el contexto máximo de GPT-5.5?
Azirgo
¿Listo para construir tu Producto Digital?
Sitios web, apps móviles, software a medida y soluciones blockchain. Cuéntanos qué tienes en mente y armamos un plan claro contigo.
- Cotización clara en 48 horas
- Equipo en Ecuador, atención en español
- Desde un MVP hasta un producto en producción