NVIDIA + Groq: USD 20B, LPU Vera Rubin e inferencia barata

El 24 de diciembre de 2025 NVIDIA hizo un regalo de Navidad incómodo para todo el resto de la industria: anunció que compraba los activos de Groq por USD 20 mil millones, incluyendo un acqui-hire del CEO y el equipo core. Es el deal más grande en la historia de NVIDIA, supera con holgura las adquisiciones previas de Mellanox (USD 6.9B) y ARM (intento fallido por USD 40B), y deja a Jensen Huang con la propiedad de la tecnología de inferencia más rápida que existía fuera del ecosistema GPU. Cinco meses después, en GTC 2026, NVIDIA mostró lo que compraron: el Groq 3 LPU integrado a la plataforma Vera Rubin mediante una arquitectura llamada Attention-FFN Disaggregation. Si construís productos con IA, esto baja tus costos.

Este post desarma qué es lo que NVIDIA realmente adquirió, cómo funciona la nueva arquitectura combinada, qué significa para precios de API y latencia, y qué deberías estar pensando si tu app habla con un LLM por una HTTP request.

Qué era Groq y por qué NVIDIA pagó USD 20B

Groq nació en 2016 fundada por Jonathan Ross, el ingeniero que diseñó la primera TPU de Google. La tesis técnica era simple y radical: los GPUs son excelentes para entrenamiento (donde el cuello de botella es ancho de banda y FLOPs) pero ineficientes para inferencia (donde el cuello de botella es latencia y memoria). Ross apostó a un chip dedicado a inferencia construido desde cero: una Language Processing Unit (LPU) con arquitectura determinística, sin caches, sin HBM, todo SRAM on-chip.

El resultado fue una bestia para servir tokens. En 2024 Groq ya corría Llama 3 70B a 500 tokens/segundo por usuario — comparado con ~30 t/s en el mejor GPU de NVIDIA de ese momento. La trampa: cada chip Groq solo tenía 230 MB de SRAM, así que servir un modelo grande requería interconectar cientos de LPUs. Eso volvía la economía agresiva en latencia pero pesada en CapEx total para el datacenter.

NVIDIA leyó el momento de mercado. En 2025 el grueso del cómputo de IA dejó de ser entrenamiento (donde tienen 95% market share) y pasó a inferencia (donde alternativas como Groq, Cerebras y los TPUs de Google estaban comiéndoles share). Comprar Groq fue defensivo: en vez de competir, integrar. El análisis de Tom’s Hardware lo resume bien: NVIDIA no quería ver a Groq vendido a AMD, Intel o un consorcio cloud.

El Groq 3 LPU: qué cambia respecto del LPU original

En GTC 2026 NVIDIA reveló el Groq 3 LPU, fabricado por Samsung en proceso de 4nm. Es la primera generación bajo bandera NVIDIA y trae tres cambios sobre los LPUs originales que justifican el rebranding.

Métrica	Groq LPU original (2024)	Groq 3 LPU (2026)
Proceso de fabricación	TSMC 14nm	Samsung 4nm
SRAM on-chip	230 MB	1.2 GB
Bandwidth on-chip	80 TB/s	150 TB/s
Compute FP8	750 TFLOPS	315 PFLOPS
Interconexión	Custom mesh	NVLink 5 con Vera Rubin
Power envelope	215 W	700 W

El salto de 230 MB a 1.2 GB de SRAM es el cambio más importante: ahora un solo chip puede sostener modelos medianos sin tener que distribuirlos entre cientos de unidades. La compute FP8 de 315 PFLOPS por chip lo pone en territorio de las GPUs más grandes, pero con la ventaja del bandwidth interno de SRAM (150 TB/s) que en GPU vive en HBM (~5 TB/s). El costo es térmico: 700 W por chip exige refrigeración líquida directa.

El verdadero punto de quiebre, sin embargo, no es el chip aislado. Es cómo se integra al stack de NVIDIA.

Attention-FFN Disaggregation: la arquitectura clave

NVIDIA presentó en GTC 2026 una arquitectura llamada Attention-FFN Disaggregation (AFD) que combina Vera Rubin (la próxima generación de GPU, sucesora de Blackwell) con los Groq 3 LPUs en el mismo rack. La idea es dividir el trabajo de un forward pass de un LLM en dos fases físicas separadas.

Un forward pass tiene dos partes computacionales dominantes. La primera es attention, donde el modelo computa las relaciones entre todos los tokens del contexto — operación con mucha multiplicación de matrices grandes, ideal para GPU. La segunda es la red feed-forward (FFN), donde cada token pasa por MLPs anchas — operación dominada por bandwidth de memoria, ideal para SRAM.

Hasta 2025 ambas fases corrían en el mismo chip (GPU o LPU), pagando el peor de los dos costos. AFD las separa físicamente:

Token de entrada
    ↓
[Vera Rubin GPU]
    → prefill del contexto
    → attention layers
    → KV-cache en HBM
    ↓
[Groq 3 LPU]
    → feed-forward layers
    → SRAM bandwidth domina
    → output token
    ↓
Token de salida

El resultado es 4-7x más throughput por watt en serving de modelos grandes (Llama 4 405B, Claude Opus 4.7 equivalente abierto, GPT-5 open). Más importante para el bolsillo: el análisis de Dr. Ian Cutress estima que reduce el TCO de un cluster de inferencia entre 35% y 50%. Esa reducción se va a propagar a precios de API en los próximos 6-12 meses.

Qué significa para precios de API y latencia

Las consecuencias para developers son tres y bastante directas.

Bajan los precios de inferencia. OpenAI, Anthropic, Google y los proveedores open-source corren sobre infraestructura NVIDIA. Si el TCO baja 35-50%, una parte se transfiere al cliente vía price cuts. Esperá ver recortes de 30-40% en costos de tokens de output para modelos grandes en H2 2026. Lo que cuesta hoy USD 15 por millón de tokens de output podría costar USD 9-10 a fin de año.

Baja la latencia, especialmente para casos sensibles. La arquitectura AFD reduce el time-to-first-token en 40% y el inter-token latency en 60% según los benchmarks de GTC. Eso abre casos de uso que hoy son imposibles: traducción simultánea de voz, copilots de código que completan mientras tipeás sin lag perceptible, agentes que ejecutan cadenas de 50 tool calls en bajo segundos. Si tu producto sufre porque “el LLM tarda 3 segundos en responder”, la pelea cambia.

Sube la presión sobre alternativas. AMD MI400, los TPU v7 de Google, Cerebras WSE-4 y los chips de Tenstorrent ahora compiten contra el combo Vera Rubin + Groq 3. La consolidación va a ser brutal: los proveedores cloud (Azure, AWS, GCP) van a tener que decidir si seguir comprando NVIDIA o construir su propio silicio. Microsoft ya anunció Maia 200 como respuesta; AWS dobló la apuesta a Trainium 3 y Inferentia 3.

Si estás eligiendo proveedor de modelo hoy, mantené flexibilidad en tu capa de abstracción. Lo profundizamos en GPT-5.5: qué cambia para developers en 2026 — la decisión de “qué LLM uso” se vuelve cada vez más reversible.

Cómo impacta a Ecuador y LatAm

LatAm no tiene datacenters de IA propios a la escala que importa. El 99% de las requests de los modelos grandes que consumen apps ecuatorianas salen del país — a us-east-1 de AWS, a westus2 de Azure, a us-central de GCP, a Anthropic en us-west. Eso significa que el efecto AFD nos llega vía dos canales: precios y latencia.

En precios, una baja del 30-40% en el costo del token cambia la unidad económica de cualquier producto SaaS que use LLMs. Una app de tutoring que hoy gasta USD 2 por usuario al mes en API calls pasa a gastar USD 1.20. Eso multiplica margen o permite ofrecer free tier viable. Para founders ecuatorianos que están haciendo math en USD pero cobrando en USD también, es directo.

En latencia, el cuello de botella deja de ser el modelo y pasa a ser la red. Una request de Quito a us-east-1 paga ~80-100 ms de RTT por geografía. Si el modelo respondía en 800 ms y ahora responde en 400 ms, el 100 ms de red empieza a pesar más. Apps que necesitan latencia ultra-baja (voz, copilots) van a pedir edges regionales — y ahí la pregunta es cuándo Anthropic, OpenAI o algún wrapper ofrece endpoints en São Paulo o en Bogotá. La realidad: 2027-2028 al ritmo actual.

Mientras tanto, la apuesta inteligente sigue siendo construir con un buen abstraction layer (Vercel AI SDK, LangChain.js, o tu propio adapter) que te deje cambiar proveedor sin reescribir features. Lo cubrimos también en Cursor 3 vs Windsurf para el caso específico de tooling de desarrollo.

Qué deberías hacer hoy con esta info

Cinco acciones concretas dependiendo del rol.

Si tenés una app SaaS con LLM: renegociá tu volume commitment con tu proveedor para 2H 2026. Los precios van a bajar; no firmes contratos a 12 meses a tarifa actual. Pedí cláusulas de “most favored pricing” o renovación cada 90 días.
Si estás construyendo agentes con muchos tool calls: la latencia inter-token de 60% menos hace viable arquitecturas que hoy son lentas. Revisá tus flujos serial y plantéate cadenas más profundas que antes no cerraban por latencia.
Si tu producto necesita voz o copilot en tiempo real: el tiempo para construirlo es ahora. Los modelos de audio (Whisper-large-v4, Gemini Voice, Claude Voice) están bajando latencia en paralelo y el combo se vuelve usable a escala.
Si tu stack pasa por edge runtimes: revisá Cloudflare Workers AI, que ya anunció soporte de Vera Rubin en su nueva región de São Paulo para Q3 2026. Es la opción más cercana a Ecuador con latencia razonable.
Si estás eligiendo modelo proveedor por primera vez: andate con un abstraction layer desde el día uno. El paisaje de proveedores se va a sacudir mucho en los próximos 12 meses y reescribir tu integración va a doler.

Riesgos y dudas que quedan abiertas

No todo es titular feliz. Quedan tres dudas que el comunicado de NVIDIA no resolvió.

Disponibilidad real. Los chips Vera Rubin se anunciaron para H2 2026 con shipping inicial en Q3, pero NVIDIA tiene historial de slips. El Groq 3 LPU está en sample silicon con clientes selectos (Microsoft, Anthropic, xAI). Volumen masivo no llega antes de Q1 2027. Eso significa que el efecto en precios de API tarda más de lo que el hype sugiere.

Vendor lock-in del software. La arquitectura AFD requiere software que sepa orquestar prefill en GPU y FFN en LPU. Ese software es CUDA + el SDK propietario de Groq, ahora unificados bajo NVIDIA. Cualquier competidor (AMD ROCm, Intel oneAPI) queda atrás un ciclo más. La crítica antimonopolio que pesaba sobre la compra de ARM va a volver, ahora con justa causa.

Sostenibilidad energética. 700 W por chip + GPU H200/Vera Rubin de 1200 W = racks de 50-60 kW. La red eléctrica de Estados Unidos no está preparada para el crecimiento proyectado de datacenters; Texas y Virginia ya tienen moratorias. El número que NVIDIA no quiere discutir en GTC es cuántos GWh suma su roadmap 2026-2028. Para LatAm es una oportunidad — Ecuador tiene exceso de hidroeléctrica disponible (Coca Codo Sinclair, Paute) — pero requeriría política industrial deliberada que hoy no existe.

Tabla resumen

Pregunta	Respuesta corta
¿Cuándo se anunció la compra?	24 de diciembre de 2025
¿Cuánto pagó NVIDIA?	USD 20 mil millones por activos + acqui-hire
¿Cuándo vimos el primer chip combinado?	GTC 2026 — Groq 3 LPU + Vera Rubin
¿Qué arquitectura usa?	Attention-FFN Disaggregation (AFD)
¿Cuánto baja el TCO de inferencia?	Estimado 35-50% según analistas
¿Cuándo lo vemos en precios de API?	H2 2026 / Q1 2027 según cliente
¿Qué hacer hoy como dev?	Renegociar contratos, no lock-in largo, abstraction layer

Preguntas frecuentes

¿Voy a notar la baja de precios en mi app inmediatamente?

No. Los chips llegan en H2 2026 y los proveedores tardan 2-3 trimestres en propagar el ahorro al cliente final. Esperá los primeros recortes públicos a fin de 2026 y caídas más fuertes en 2027. Renegociá contratos cada 90 días para capturar los movimientos.

¿Qué es Attention-FFN Disaggregation en una frase?

Dividir el forward pass de un LLM en dos fases físicas: las capas de atención corren en GPUs Vera Rubin (que son buenas con matrices grandes), y las capas feed-forward corren en LPUs Groq (que son buenas con bandwidth de memoria SRAM). El resultado es 4-7x más throughput por watt.

¿Esto mata a alternativas como Cerebras o los TPU de Google?

No las mata pero les sube la barra. Cerebras WSE-4 sigue siendo competitivo para entrenamiento, los TPU v7 son la opción cuando ya vivís en GCP, y AMD MI400 va a pelear en precio. Lo que sí cambia es que NVIDIA absorbe la mejor arquitectura de inferencia que existía afuera; los competidores ahora juegan a alcanzarlos en lugar de superarlos.

¿Afecta a apps que corren en Cloudflare Workers AI o Vercel AI?

Sí, indirectamente y para bien. Esos runtimes consumen GPUs de los mismos proveedores que se benefician del AFD. Cloudflare ya confirmó Vera Rubin en su nueva región de São Paulo para Q3 2026 — la más cercana a Ecuador con latencia decente. Si tu app vive en el edge, monitoreá esas regiones.

¿Qué pasa con la concentración de poder? ¿No es monopolio?

Es una preocupación legítima. NVIDIA ya tiene >90% del market share de entrenamiento de IA; con Groq integrado domina también inferencia. La FTC y la Comisión Europea están investigando. Para developers el efecto práctico es que el lock-in a CUDA + ahora SDK Groq es más fuerte que nunca — usá abstraction layers que te permitan portar a AMD/Intel si las cosas cambian.

¿Sirve para apps ecuatorianas que corren contra APIs en EE. UU.?

Sí, pero el cuello de botella se mueve a la red. Una request de Quito a us-east-1 paga 80-100 ms de latencia. Si el modelo responde en 400 ms en lugar de 800 ms, los 100 ms de red ahora son 25% del total en vez de 12%. Para latencia ultra-baja necesitás edge regionales — y eso no llega a LatAm masivamente antes de 2027.

¿Debería esperar Vera Rubin antes de empezar mi proyecto con IA?

No. Construí ahora con la API que esté disponible (Claude, OpenAI, Gemini) y dejá una capa de abstracción para portar más adelante. El ecosistema va a moverse mucho los próximos 18 meses; lo importante es que tu producto exista cuando la baja de precios llegue, no que esperes a que llegue.

Azirgo

¿Listo para construir tu Producto Digital?

Sitios web, apps móviles, software a medida y soluciones blockchain. Cuéntanos qué tienes en mente y armamos un plan claro contigo.

Cotización clara en 48 horas
Equipo en Ecuador, atención en español
Desde un MVP hasta un producto en producción

Empezar cotización Ver portafolio

O escríbenos a contacto@azirgo.com