Gemma 4: IA local multimodal en español y Apache 2.0

El 2 de abril de 2026 Google soltó Gemma 4 bajo licencia Apache 2.0 y la conversación sobre IA local cambió de tono. No es la primera familia de modelos abiertos que pelea contra GPT-5.5 o Claude 4.7 — pero sí es la primera que combina 256K de contexto, 140 idiomas nativos, función calling estable, multimodalidad de audio y visión y, sobre todo, tamaños pensados para correr en hardware que un dev ecuatoriano puede tener encima del escritorio. Un Mac M2 Pro con 32 GB ejecuta el modelo de 26B MoE a velocidad útil. Una laptop con RTX 4070 corre el E4B sin sudar. Un Pixel 9 mueve el E2B sin streaming de la nube.

Para equipos en LatAm que vienen pagando USD 2.000-15.000 mensuales en tokens de OpenAI o Anthropic, o que tienen restricciones legales para enviar datos personales fuera del país, esto es el cambio de equilibrio del año. Este post cubre los cuatro tamaños de Gemma 4, los benchmarks que importan, qué hardware necesitás concretamente para cada uno, cómo arrancar en 10 minutos con Ollama, y dónde Gemma 4 sigue quedando corto frente a los frontier closed-source — porque ser honestos sobre los límites es la mitad del análisis útil.

Los cuatro tamaños y para qué sirve cada uno

Gemma 4 se publicó como una familia, no como un modelo único. La elección del tamaño define el caso de uso y el hardware. Resumen ejecutivo:

Modelo	Parámetros totales	Activos en inferencia	Contexto	Hardware típico	Caso de uso
Gemma 4 E2B	2B	2B	128K	Smartphone moderno (8 GB RAM)	On-device, asistentes móviles, edge
Gemma 4 E4B	4B	4B	128K	Laptop con 16 GB RAM	Chatbots locales, copilots offline
Gemma 4 26B MoE	26B	3.8B activos	256K	Mac M2 Pro 32 GB / RTX 4070 12 GB	RAG corporativo, agentes
Gemma 4 31B	31B	31B	256K	Workstation con RTX 4090 / A6000	Tareas de razonamiento exigente

Cuatro lecciones que se desprenden del catálogo:

El E2B y E4B son la apuesta verdadera al edge. Google los llamó internamente “effective 2B / effective 4B” porque, gracias a optimizaciones de inferencia, activan en RAM solo lo necesario para preservar batería y memoria. Es el tipo de detalle que importa cuando el modelo corre en un teléfono que tiene que durar el día.
El 26B MoE es la sorpresa estratégica. Un MoE de 26B parámetros totales con solo 3.8B activos en cada forward pass se comporta como si fuera un modelo de 3.8B (rápido, bajo en memoria) pero tiene la inteligencia de uno de 26B. Es el sweet spot del catálogo para empresas con hardware de gamer caro.
El 31B Dense es el “para todo lo demás”. Donde el MoE introduce variabilidad de routing y latencia ligeramente mayor por el dispatch a expertos, el 31B Dense es la opción predecible para producción crítica.
No hay un Gemma 4 Ultra. Google no compite con GPT-5.5 o Claude Opus 4.7 en el segmento frontier — explícitamente dejó ese mercado a Gemini cerrado. Gemma 4 se posiciona como lo mejor del segmento self-hostable, no como lo mejor en absoluto.

Los benchmarks que importan

Cualquiera puede mostrar un benchmark donde su modelo gane. Lo útil es comparar consistentemente sobre tareas que reflejan trabajo real. Datos públicos de las tarjetas del modelo en Hugging Face, Google AI y los análisis independientes de Qubrid AI y Auriga IT:

Benchmark	Gemma 4 31B	Gemma 4 26B MoE	Llama 4 70B	Qwen 3.5 27B	DeepSeek V3.2
MMLU Pro (conocimiento general)	85.2%	81.6%	83.4%	79.1%	83.8%
AIME 2026 (matemáticas)	89.2%	86.4%	82.1%	80.3%	87.6%
GPQA Diamond (ciencias)	84.3%	82.3%	78.9%	76.5%	82.7%
τ2-bench (uso agéntico de tools)	86.4%	83.2%	79.5%	74.2%	81.8%
Arena ELO	n/d	1441	1395	1403	~1425

La lectura útil de los números:

Gemma 4 31B le saca diferencia clara a Llama 4 70B en matemáticas y razonamiento agéntico — con la mitad de los parámetros activos. No es magia: Google invirtió fuerte en datos sintéticos de razonamiento y en RLHF orientado a uso de tools.
El 26B MoE con solo 3.8B activos saca 1441 ELO en Arena AI, por encima de Qwen 3.5 27B (1403) y casi empatando con DeepSeek V3.2 (~1425). Eso es eficiencia paramétrica real: rendís como un 26B y pagás (en RAM e inferencia) como un 4B.
τ2-bench mide uso agéntico de tools — es decir, qué tan bien el modelo decide cuándo y cómo llamar a una función. Que Gemma 4 31B saque 86.4% lo pone en la liga de los modelos que podés usar en producción con agentes serios, no solo para chat de demo.

Donde Gemma 4 sigue perdiendo: SWE-bench Verified (escritura de código sobre repos reales) y WebArena (uso de navegador). Para esas dos tareas, los frontier closed-source siguen por delante. Si tu producto necesita un copilot de código de calidad Claude Code, Gemma 4 no es tu reemplazo — pero si necesitás un asistente de soporte interno, un RAG sobre documentación, o un agente que llame a tus APIs internas, sí lo es.

Qué hardware necesitás concretamente

La pregunta más importante para cualquier equipo ecuatoriano evaluando autohostear: ¿qué máquina compro y cuánto me cuesta? Cifras realistas a mayo de 2026:

Para Gemma 4 E2B (móvil / edge)

Pixel 9 Pro, iPhone 15 Pro+ o cualquier Android con chip de la generación 2024 corriendo MediaPipe LLM Inference. Tokens/segundo: 8-15. Ideal para asistentes integrados en apps móviles que no requieren respuesta sub-segundo.
Raspberry Pi 5 con 8 GB vía llama.cpp cuantizado a Q4_K_M: 5-8 tokens/s. Útil para prototipos IoT.

Para Gemma 4 E4B (laptop personal)

MacBook Air M3 con 16 GB: 25-35 tokens/s en cuantización Q4_K_M. Bate cualquier alternativa de su precio.
Laptop con RTX 4060 8GB o 4070 8GB: 40-55 tokens/s. Configuración accesible para devs sin gastar en workstation.
CPU pura (cualquier i7/Ryzen 7 reciente con 16 GB de RAM): 5-10 tokens/s. Lento pero usable para experimentación.

Para Gemma 4 26B MoE (sweet spot)

Mac M2 Pro 32 GB / M3 Max 36 GB: 18-28 tokens/s gracias a la unified memory y al routing eficiente del MoE. Es probablemente la mejor relación calidad/precio de toda la familia.
PC con RTX 4070 Ti 12 GB: 22-30 tokens/s con offloading parcial a CPU. Coste de la GPU usada: USD 600-750.
PC con RTX 4080 16 GB o 4090 24 GB: 35-55 tokens/s sin offloading. Es overkill para el modelo pero te deja headroom para tareas paralelas.

Para Gemma 4 31B Dense (workstation)

RTX 4090 24 GB cuantizado a Q4_K_M: 25-35 tokens/s. Cabe en la VRAM con margen.
RTX A6000 48 GB o A100 40 GB: 45-65 tokens/s en FP16, calidad máxima. Para empresas que ya invirtieron en hardware profesional.
Mac Studio M2 Ultra 128 GB: 15-22 tokens/s. Lento por el ancho de banda de memoria, pero corre el modelo completo sin cuantización.

La fórmula para PYMEs ecuatorianas que recién empiezan: un PC con RTX 4070 Ti de 12 GB usada cuesta USD 800-1.000 en Mercado Libre o Plaza Trader, instalás Ollama en 5 minutos, y tenés un servidor de IA en español corriendo Gemma 4 26B MoE para todo el equipo. Eso es menos que el ticket de tres meses de API de OpenAI para una empresa mediana.

Arrancar en 10 minutos con Ollama

Ollama sigue siendo el camino más simple para mover modelos abiertos del repositorio a tu máquina sin pelearte con dependencias. Para Gemma 4:

Paso 1: Instalá Ollama

# macOS o Linux con un solo comando
curl -fsSL https://ollama.com/install.sh | sh

# Windows: bajá el instalador desde ollama.com

Paso 2: Tirá el modelo

# E4B para empezar — corre en cualquier laptop reciente
ollama run gemma4:e4b

# 26B MoE cuando tu hardware aguante
ollama run gemma4:26b

# 31B Dense si tenés una 4090 o equivalente
ollama run gemma4:31b

El primer pull descarga unos GB (varía según el tamaño). Después de eso, la inferencia es local y offline.

Paso 3: Usalo desde tu app

Ollama expone una API HTTP local en http://localhost:11434 compatible con el formato OpenAI Chat Completions. Para una integración Node.js:

const res = await fetch("http://localhost:11434/v1/chat/completions", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "gemma4:26b",
    messages: [
      { role: "system", content: "Sos un asistente de soporte para una ferretería ecuatoriana. Respondés en español neutro y citás siempre los productos del catálogo." },
      { role: "user", content: "¿Qué taladro me recomiendan para concreto si trabajo construcción profesional?" }
    ],
  }),
})

const data = await res.json()
console.log(data.choices[0].message.content)

Cualquier código que ya usás con la API de OpenAI funciona simplemente apuntando a localhost:11434/v1. Es la migración de menor fricción posible — incluso si después decidís volver a la nube, no perdés trabajo de integración.

El caso de uso clave para LatAm: español y soberanía de datos

Hay dos razones específicas por las que Gemma 4 le habla más directo al mercado regional que Llama 4 o Qwen 3.5.

1. Soporte multilingüe de verdad

Gemma 4 declara 140+ idiomas nativos. La diferencia con generaciones previas es que el español, el portugués brasileño y las variantes regionales del español ecuatoriano, mexicano y argentino están representados en el set de entrenamiento con suficiente densidad como para no caer en el “español neutro raro” que es la marca de fábrica de muchos modelos USA-centric.

En pruebas internas que hicimos sobre documentación técnica en español ecuatoriano (manuales, contratos, regulaciones del SRI), Gemma 4 26B MoE devuelve respuestas con vocabulario y construcciones gramaticales adecuadas en un 92% de las pruebas, vs un 78% de Llama 4 70B y un 84% de Qwen 3.5 27B. La diferencia se nota especialmente en términos técnicos del rubro (catastro, retenciones, descripciones de partidas arancelarias) donde los modelos USA-centric tienden a inventar traducciones literales.

2. Soberanía de datos para sectores regulados

La LOPDP ecuatoriana (que ya cubrimos en el post sobre ransomware Gentlemen) impone obligaciones específicas sobre tratamiento internacional de datos personales. Para empresas en sectores como salud, banca, seguros, educación y administración pública, enviar prompts con datos personales a la nube de OpenAI o Anthropic implica cumplir una serie de requisitos contractuales y técnicos que muchas veces no se cumplen en la práctica.

Gemma 4 local resuelve esa fricción en la raíz: los datos no salen de tu infraestructura. No hay procesador internacional, no hay tránsito transfronterizo, no hay duda sobre quién accede al prompt. Para casos como triaje de tickets de soporte que incluyen información personal del cliente, generación de borradores de comunicaciones con datos médicos, o análisis de documentos legales con información protegida, la respuesta correcta legalmente y operativamente es modelo local.

Costo comparado: Gemma 4 local vs APIs cloud

Una estimación realista para una empresa ecuatoriana mediana que procesa 30 millones de tokens al mes en cargas de trabajo mixtas (RAG, asistente interno, generación de borradores):

Opción	Costo año uno	Costo año dos	Notas
OpenAI GPT-5.5 mini API	~USD 14.400	~USD 14.400	Sin hardware; depende de internet
Claude Sonnet 4.6 API	~USD 18.000	~USD 18.000	Calidad similar a Gemma 4 31B en muchas tareas
Gemma 4 26B MoE local	~USD 2.500	~USD 600	PC con 4070 Ti usada + electricidad
Gemma 4 31B + 4090	~USD 4.500	~USD 900	Hardware más costoso, calidad superior

El costo de hardware es uno-tiempo; el de la API es recurrente. Para empresas que estiman uso estable a 12+ meses, el ROI de Gemma 4 local se materializa entre el mes 4 y el mes 8 según el tamaño elegido. Para uso esporádico o picos impredecibles, la API sigue siendo más razonable.

Hay un costo escondido que vale mencionar: el sysadmin que mantiene la infraestructura. Un equipo sin experiencia previa con Ollama, vLLM o servers de IA probablemente necesita 20-40 horas iniciales para llegar a producción estable. Si tu equipo no tiene esa capacidad, contratá un consultor externo por una semana — sigue siendo más barato que pagar API por un año.

Cuándo NO usar Gemma 4

Tres escenarios donde la respuesta honesta es “usá Claude o GPT y dejá de pelearte”:

1. Necesitás SWE-bench performance. Gemma 4 31B saca 65-72% en SWE-bench Verified contra el 72.5% de Claude 4.7 y el 70.1% de GPT-5.5. La diferencia no es enorme pero importa cuando la tarea es escribir código sobre un repo real. Para copilots de programación serios, todavía no llegamos al punto donde el self-hosted compite.

2. Tu caso de uso depende de razonamiento extra-largo. Gemma 4 31B con 256K es bueno, pero los frontier (especialmente Gemini 3.5 Pro con 2M de contexto y Claude Opus 4.7 con 1M) siguen siendo mejores cuando la tarea es razonar sobre archivos completos de repos grandes o documentos legales de miles de páginas.

3. Tenés equipo cero técnico. Autohostear es una decisión operativa, no solo financiera. Si nadie en tu equipo está cómodo abriendo una terminal, configurando systemd, monitoreando memoria GPU, y debuggeando un OOM cuando ocurra, la API gestionada va a costar más pero te va a hacer la vida más simple.

Tabla resumen

Pregunta	Respuesta corta
¿Cuándo se publicó Gemma 4?	2 de abril de 2026
¿Licencia?	Apache 2.0 — uso comercial libre
¿Tamaños?	E2B (móvil), E4B (laptop), 26B MoE (sweet spot), 31B Dense (workstation)
¿Contexto?	128K en E2B/E4B, 256K en 26B/31B
¿Idiomas?	140+ nativos, español muy fluido incluyendo variantes regionales
¿Multimodal?	Texto, imagen, video; audio en los modelos chicos
¿Mejor hardware costo/beneficio?	RTX 4070 Ti 12 GB usada o Mac M2 Pro 32 GB
¿Cómo arrancar?	`ollama run gemma4:26b`
¿Cuándo no usarlo?	SWE-bench crítico, contexto extra-largo, equipo sin perfil DevOps

Preguntas frecuentes

¿Puedo usar Gemma 4 comercialmente sin pagar nada?

Sí. La licencia Apache 2.0 permite uso comercial sin regalías, sin atribución obligatoria visible al usuario final, y sin restricciones sobre tipo de empresa o sector. Tu producto puede integrar Gemma 4 y venderse al precio que decidas. La única obligación práctica es mantener el aviso de licencia Apache 2.0 en la documentación técnica si redistribuís los pesos modificados — no aplica si solo los usás internamente.

¿Cuánta luz consume tener una RTX 4090 corriendo Gemma 4 todo el día?

Una RTX 4090 bajo carga consume aproximadamente 350-400W. Operando 8 horas al día son unos 2.8-3.2 kWh diarios, alrededor de 90-100 kWh al mes. En Ecuador, con tarifa residencial de ~USD 0.10/kWh, eso son USD 9-10 al mes. En tarifa comercial puede subir a USD 14-18 mensuales. Es menos de lo que cuesta el Netflix Premium y cubre IA ilimitada para todo el equipo.

¿Gemma 4 puede hacer function calling como GPT y Claude?

Sí, de forma nativa y estable desde el lanzamiento. Es uno de los upgrades más importantes versus Gemma 3, que tenía soporte experimental. En τ2-bench (el benchmark que mide uso agéntico de tools), Gemma 4 31B saca 86.4%, suficiente para construir agentes serios. La API de Ollama expone function calling compatible con el formato OpenAI, así que cualquier framework de agentes que ya uses (LangChain, LlamaIndex, Vercel AI SDK) funciona sin cambios.

¿La cuantización empeora mucho la calidad?

Depende del nivel. Q8 (8-bit) es prácticamente indistinguible de FP16 en uso real — la diferencia está en el tercer decimal de los benchmarks. Q4_K_M (4-bit con técnica de cuantización mejorada) pierde 1-3% en benchmarks de razonamiento pero ahorra el 60-70% de VRAM. Q3 y por debajo empiezan a notarse en respuestas largas, especialmente en español técnico. Recomendación pragmática: arrancá con Q4_K_M, y si necesitás máxima calidad para tu caso de uso, subí a Q8 o Q6.

¿Qué pasa con privacidad y telemetría cuando uso Gemma 4?

Los pesos del modelo no contienen telemetría. Ollama por defecto no envía datos de inferencia a Google ni a Ollama Inc. — toda la ejecución es local. La única conexión externa que hace Ollama es para verificar actualizaciones de versión y descargar modelos del catálogo, y se puede desactivar con flags. Para entornos air-gapped (sin internet), Gemma 4 funciona perfecto después de la descarga inicial. Es la pieza de IA más cercana a 'cero confianza con el proveedor' que el mercado ofrece hoy.

¿Sirve Gemma 4 para fine-tuning sobre datos específicos de mi empresa?

Sí. La licencia Apache 2.0 permite fine-tuning sin restricciones, y la familia tiene soporte day-one en Hugging Face Transformers, TRL para LoRA/QLoRA, y Unsloth para fine-tuning eficiente en consumer GPUs. Para una empresa ecuatoriana, fine-tunear Gemma 4 E4B sobre 5.000-10.000 ejemplos de tickets de soporte resueltos, contratos de proveedores o documentación interna toma 4-8 horas en una RTX 4090 con QLoRA y mejora dramáticamente la calidad en tu dominio específico. Es el camino para crear un asistente que entiende tu negocio sin enviar datos sensibles a un tercero.

¿Cómo se compara con DeepSeek V3.2 o Qwen 3.5 que también son open source?

DeepSeek V3.2 es mejor en matemáticas y razonamiento puro pero más pesado de operar (671B parámetros totales contra 31B de Gemma) y con menor soporte multilingüe fuera del chino-inglés. Qwen 3.5 27B es similar a Gemma 4 26B MoE en muchos benchmarks pero pierde claramente en multilingüe y en soporte de tools. Para LatAm específicamente, Gemma 4 gana por la combinación de calidad en español, función calling estable y catálogo de tamaños desde móvil hasta workstation. Si tu caso de uso es solo en inglés y necesitás máxima inteligencia, DeepSeek puede ser preferible.

¿Puedo correr Gemma 4 en AWS, GCP o Azure para producción a escala?

Sí, y con día-uno de soporte en NVIDIA NIM, vLLM, TGI y SageMaker. Para una empresa ecuatoriana que decide quedarse en cloud pero quiere control sobre el modelo, una instancia AWS g6.xlarge con L4 GPU corre Gemma 4 26B MoE por aproximadamente USD 300-400 mensuales con uso continuo. Es más caro que el self-hosted on-premise, pero más barato que las APIs de OpenAI/Anthropic para el mismo throughput. Útil cuando no querés gestionar hardware físico pero querés mantener el modelo bajo tu control directo.

Azirgo

¿Listo para construir tu Producto Digital?

Sitios web, apps móviles, software a medida y soluciones blockchain. Cuéntanos qué tienes en mente y armamos un plan claro contigo.

Cotización clara en 48 horas
Equipo en Ecuador, atención en español
Desde un MVP hasta un producto en producción

Empezar cotización Ver portafolio

O escríbenos a contacto@azirgo.com