Un ingeniero revisa métricas de inferencia en un panel de monitoreo dentro de un centro de datos, con servidores al fondo y una pantalla mostrando uso de memoria y latencia.
Volver al blog

OSCAR: caché KV de 2 bits para LLMs

OSCAR de Together AI reduce la memoria de la caché KV con cuantización de 2 bits para LLMs de contexto largo. Aquí ves qué problema resuelve, cómo impacta en costo y latencia, y por qué le importa a equipos en LatAm.

Si estás sirviendo un LLM con contexto largo, probablemente ya viste el problema: el costo no se te va solo en tokens generados, también se te va en memoria. A medida que crece el contexto, la caché KV se come cada vez más VRAM y te obliga a bajar batch size, limitar concurrencia o comprar GPUs más caras. En producción, eso pega directo en margen, latencia y capacidad de escalar.

Ahí entra OSCAR, la propuesta que Together AI liberó para cuantizar la caché KV a 2 bits. El objetivo no es “hacer magia” con el modelo, sino atacar uno de los cuellos de botella más caros de la inferencia de LLMs largos: guardar y reutilizar estados intermedios con mucha menos memoria. Si sirves asistentes con documentos largos, RAG con contextos extensos o agentes que mantienen historial largo, este tema te toca de frente.

Qué problema resuelve OSCAR

La caché KV existe por una razón simple: en cada capa de atención, el modelo guarda claves y valores para no recalcular todo desde cero en cada token nuevo. Eso acelera la generación, pero también acumula memoria de forma lineal con el largo del contexto. Cuando pasas de unos pocos miles de tokens a decenas de miles, la VRAM empieza a ser la restricción real, no la capacidad teórica del modelo.

En modelos grandes, la caché KV puede ocupar una parte enorme del presupuesto de memoria. Si además sirves varias sesiones al mismo tiempo, cada conversación larga suma presión. El resultado típico es conocido: menos requests por GPU, más colas, más latencia p95 y una factura más alta por usuario activo.

OSCAR apunta justo ahí. Según la publicación de Together AI y la documentación asociada, la idea es comprimir la caché KV a 2 bits para reducir el footprint sin destruir por completo la calidad. No se trata de cuantizar pesos del modelo, sino el estado temporal que más crece durante la inferencia. Eso importa porque, para contexto largo, la memoria de activación y la caché suelen ser el límite práctico antes que el cómputo puro.

Por qué la caché KV pesa tanto

Cada token adicional no solo agrega texto: agrega memoria persistente para atención. En un sistema con contexto largo, esa memoria escala con el número de capas, cabezas de atención y longitud del prompt. Si sirves 8k, 16k o 32k tokens, el salto no es lineal en tu costo operativo percibido, sino en la presión sobre VRAM y en la necesidad de reservar margen para picos.

Para equipos en LatAm, esto tiene una consecuencia directa: si tu infraestructura depende de GPUs alquiladas por hora, cualquier reducción en memoria puede traducirse en más sesiones concurrentes por instancia. Y eso no es un detalle técnico menor; es la diferencia entre un piloto que cierra números y uno que se queda corto cuando sube el tráfico.

Qué significa cuantizar a 2 bits

Cuantizar a 2 bits quiere decir representar cada valor con solo cuatro niveles posibles. En la práctica, eso reduce muchísimo el espacio ocupado por la caché, pero también exige estrategias para minimizar la pérdida de información. OSCAR entra en esa zona donde la compresión agresiva necesita una implementación cuidadosa para no romper demasiado la calidad de salida.

La parte interesante no es solo el número de bits, sino dónde se aplica. Cuando cuantizas el caché, atacas un componente que crece con cada token generado. Eso lo vuelve especialmente atractivo para casos donde el contexto se alarga y el costo marginal por token empieza a dispararse.

Cómo funciona a grandes rasgos

La documentación y el material publicado por Together AI describen OSCAR como un enfoque de cuantización de caché KV pensado para contextos largos. La clave es comprimir los estados de atención de manera que el modelo siga pudiendo reutilizarlos, pero con un consumo mucho menor de memoria. Si lo piensas como infraestructura, es una forma de mover el límite de la VRAM hacia afuera.

Esto no elimina el costo de inferencia. El modelo sigue procesando tokens, sigue consumiendo cómputo y sigue teniendo limitaciones numéricas. Pero sí cambia la ecuación de memoria, que suele ser la que te obliga a recortar longitud de contexto o a escalar horizontalmente antes de tiempo.

En un stack real, eso se traduce en menos presión sobre el scheduler, menos swapping, menos fragmentación de memoria y más margen para mantener sesiones largas vivas. Si tú operas un endpoint de chat, un sistema de análisis documental o un agente que lee historiales extensos, el efecto práctico es más importante que la teoría: más capacidad útil por GPU.

Flujo conceptual de uso

Sin entrar en una implementación que dependa de una versión concreta del runtime, el flujo mental es este:

  1. El modelo recibe un prompt largo o una conversación con historial.
  2. La caché KV se va llenando token a token durante el prefill y la generación.
  3. OSCAR comprime esa caché a 2 bits para reducir memoria ocupada.
  4. El servidor de inferencia recupera los valores cuando necesita atender el siguiente token.
  5. Tú ganas margen para sostener más longitud de contexto o más concurrencia con la misma GPU.

Ese flujo no te promete cero pérdida. Lo que te promete es una mejor relación entre memoria usada y utilidad real del contexto. Y en producción, esa relación suele valer más que una mejora marginal en benchmarks aislados.

Dónde entra en el stack de serving

OSCAR tiene más sentido en la capa de serving que en la de entrenamiento. Si ya estás usando vLLM, TensorRT-LLM, SGLang u otro runtime optimizado, la pregunta es si ese runtime puede aprovechar una caché KV más liviana. La respuesta concreta depende de la integración y de la versión; por eso conviene revisar la documentación oficial del proyecto y las notas técnicas publicadas por Together AI.

La lógica es simple: si el cuello de botella está en memoria, la optimización debe vivir donde se materializa esa memoria. No sirve mucho comprimir pesos si tu problema real es que el contexto largo te llena la VRAM con estados intermedios.

Impacto en costo, latencia y escalabilidad

La primera ganancia esperable es costo. Si reduces la memoria de la caché KV, puedes exprimir mejor cada GPU. Eso puede significar más solicitudes concurrentes, más contexto por sesión o menos necesidad de pasar a una tarjeta con más VRAM. En entornos donde la GPU es el rubro más caro del stack, ese ahorro pesa bastante.

La segunda ganancia es latencia. No porque la compresión de 2 bits sea gratis, sino porque una caché más chica puede reducir presión sobre memoria y mejorar la estabilidad del servicio. Menos thrashing de memoria y menos límites duros suelen traducirse en una experiencia más predecible, sobre todo cuando el tráfico sube.

La tercera ganancia es escalabilidad. Cuando el contexto crece, muchas arquitecturas se rompen antes por memoria que por cómputo. Si bajas el consumo de la caché, puedes sostener más sesiones largas, mejorar la densidad por GPU y retrasar el salto a infraestructura más cara.

Ejemplo práctico de impacto operativo

Imagina un equipo que sirve un asistente legal o de soporte interno con documentos largos. Cada sesión puede arrastrar miles de tokens de historial, más anexos, más respuestas previas. Si cada conversación consume demasiado VRAM, terminas con una GPU atendiendo pocas sesiones a la vez.

Con una caché KV más compacta, la misma GPU puede sostener más concurrencia o más longitud de contexto antes de saturarse. No significa que el costo baje a cero, pero sí que el costo por sesión útil puede mejorar de forma tangible. Para una startup o un equipo de producto en Ecuador, Colombia, México o Perú, esa diferencia puede decidir si el piloto pasa a producción.

Lo que no resuelve

OSCAR no arregla prompts mal diseñados, no reemplaza técnicas de truncado inteligente y no elimina la necesidad de observar métricas. Si tu aplicación mete contexto irrelevante, seguirás pagando por tokens inútiles aunque la caché ocupe menos. Tampoco corrige un modelo que ya se queda corto en calidad para tu caso de uso.

Además, la cuantización agresiva siempre tiene un trade-off. 2 bits es una compresión muy fuerte, así que la pregunta correcta no es si ahorra memoria, porque sí lo hace, sino cuánto impacto tiene en calidad para tu workload. Esa respuesta solo la da tu evaluación con datos reales.

Qué deberías medir antes de adoptarlo

Antes de poner OSCAR en producción, te conviene medir tres cosas: calidad, throughput y estabilidad. Si no comparas contra una línea base, vas a ver solo una parte de la historia. Un ahorro de memoria que degrade demasiado la respuesta o aumente errores no te sirve.

La forma correcta de evaluarlo es sobre tus prompts, no sobre un benchmark genérico que no se parece a tu caso. Un asistente de ventas no se comporta igual que un analizador de contratos, y un agente con herramientas no se parece a un chatbot de FAQ. Lo que importa es el patrón real de contexto que tú sirves.

También conviene mirar métricas de infraestructura. Si la GPU baja su uso de memoria pero la latencia p95 empeora demasiado, quizá ganaste densidad a costa de experiencia. Si la latencia se mantiene y sube la concurrencia, ahí sí tienes una señal fuerte de valor.

Métricas mínimas que te conviene seguir

  • VRAM usada por request y por sesión activa.
  • Latencia p50, p95 y p99.
  • Tokens por segundo por GPU.
  • Concurrencia máxima estable.
  • Calidad de salida en un set de prompts fijo.
  • Tasa de errores por timeout o out-of-memory.

Si quieres una evaluación seria, corre A/B con la misma versión del modelo, el mismo set de prompts y la misma infraestructura. Cambia solo la estrategia de caché y compara resultados. Eso te evita conclusiones falsas por ruido operativo.

Tabla comparativa de impacto esperado

MétricaCaché KV tradicionalCaché KV con OSCAR
Memoria por contexto largoAltaMucho menor
Concurrencia por GPULimitadaMayor
Riesgo de OOMMás altoMás bajo
Latencia bajo cargaMás variableMás estable
Costo por sesión largaMás altoMás bajo potencialmente

Qué significa para equipos en LatAm

En Latinoamérica, muchas veces el problema no es si puedes correr un LLM, sino si puedes hacerlo con presupuesto razonable. Las empresas no siempre tienen acceso a flotas grandes de GPUs ni a contratos con descuentos agresivos. Por eso, cada optimización de memoria cuenta más que en un entorno con infraestructura sobrada.

Si trabajas en una startup, una fintech, un marketplace o una empresa de servicios con fuerte componente documental, probablemente ya estés sintiendo la presión de contexto largo. Los casos de uso están ahí: soporte con historiales extensos, análisis de contratos, asistentes internos para conocimiento corporativo y agentes que consultan mucha información antes de responder.

OSCAR entra como una pieza útil en ese rompecabezas. No es la única, ni necesariamente la más fácil de integrar en todos los stacks, pero sí ataca una de las zonas donde más dinero se fuga. Y cuando operas desde LatAm, optimizar VRAM suele ser más rentable que perseguir hardware nuevo cada vez que sube el uso.

Casos donde más sentido tiene

  • RAG con documentos largos y múltiples fuentes.
  • Asistentes internos con historial de conversación extenso.
  • Agentes que mantienen memoria de trabajo durante muchas rondas.
  • Flujos de revisión legal, compliance o auditoría.
  • Productos SaaS donde el contexto largo es parte del valor, no un extra.

Si tu caso de uso es un chatbot corto y transaccional, el beneficio puede ser menor. Pero si tu aplicación depende de sumar contexto durante minutos o incluso horas, la caché KV deja de ser un detalle y se vuelve un costo central.

Tabla resumen

Pregunta cortaRespuesta corta
¿Qué es OSCAR?Un enfoque de Together AI para cuantizar la caché KV a 2 bits.
¿Qué problema ataca?La memoria que consume el contexto largo en inferencia.
¿Qué mejora busca?Menos VRAM, más concurrencia y menor costo por sesión.
¿Afecta la calidad?Puede afectarla; hay que medirlo en tu propio workload.
¿Sirve para cualquier LLM?Sirve sobre todo donde el cuello de botella es la caché KV.
¿Por qué importa en LatAm?Porque optimizar GPU suele ser más rentable que comprar más hardware.

Para revisar el anuncio y el contexto técnico, puedes empezar por la publicación oficial de Together AI: https://www.together.ai/ y por su documentación técnica en https://docs.together.ai/ . Si quieres contrastar cómo se maneja la memoria en serving, también vale la pena mirar la documentación de runtimes como vLLM: https://docs.vllm.ai/ .

La lectura práctica es esta: si tu producto depende de contexto largo, la memoria de la caché KV ya no es un detalle de backend. Es parte del costo unitario del negocio. OSCAR no elimina ese costo, pero sí abre una vía concreta para bajarlo sin cambiar por completo tu arquitectura.

Preguntas frecuentes

¿OSCAR cuantiza los pesos del modelo?
No. OSCAR se enfoca en la caché KV, que es el estado temporal que el modelo guarda durante la inferencia. Eso lo hace más relevante para contexto largo que para reducir el tamaño del checkpoint.
¿Cuándo vale la pena probarlo?
Vale la pena cuando tu servicio usa prompts largos, historial extenso o muchas sesiones simultáneas. Si tu aplicación trabaja con contextos cortos, el beneficio puede ser pequeño.
¿OSCAR garantiza la misma calidad?
No hay garantía universal. La cuantización a 2 bits puede introducir pérdida, así que debes evaluar calidad con tus propios prompts y métricas antes de llevarlo a producción.
¿Qué métrica mira primero un equipo de producto?
Primero mira VRAM por sesión, latencia p95 y concurrencia estable. Si esas tres mejoran sin degradar demasiado la calidad, ya tienes una señal útil.
¿Sirve para RAG?
Sí, especialmente si tu RAG arma contextos largos con muchas fuentes o conserva historial de conversación. Ahí la caché KV suele crecer rápido y se vuelve un costo real.
¿Necesito cambiar de modelo para usarlo?
No necesariamente. La idea es integrar la estrategia de caché en tu stack de serving, aunque la compatibilidad exacta depende del runtime y de la implementación que uses.
¿Por qué esto importa tanto en LatAm?
Porque en muchos equipos de la región la GPU es el componente más caro del sistema. Si puedes servir más sesiones con la misma infraestructura, mejoras margen sin esperar una compra nueva.

Azirgo

¿Listo para construir tu Producto Digital?

Sitios web, apps móviles, software a medida y soluciones blockchain. Cuéntanos qué tienes en mente y armamos un plan claro contigo.

  • Cotización clara en 48 horas
  • Equipo en Ecuador, atención en español
  • Desde un MVP hasta un producto en producción