El 2 de abril de 2026 Google soltó Gemma 4 bajo licencia Apache 2.0 y la conversación sobre IA local cambió de tono. No es la primera familia de modelos abiertos que pelea contra GPT-5.5 o Claude 4.7 — pero sí es la primera que combina 256K de contexto, 140 idiomas nativos, función calling estable, multimodalidad de audio y visión y, sobre todo, tamaños pensados para correr en hardware que un dev ecuatoriano puede tener encima del escritorio. Un Mac M2 Pro con 32 GB ejecuta el modelo de 26B MoE a velocidad útil. Una laptop con RTX 4070 corre el E4B sin sudar. Un Pixel 9 mueve el E2B sin streaming de la nube.
Para equipos en LatAm que vienen pagando USD 2.000-15.000 mensuales en tokens de OpenAI o Anthropic, o que tienen restricciones legales para enviar datos personales fuera del país, esto es el cambio de equilibrio del año. Este post cubre los cuatro tamaños de Gemma 4, los benchmarks que importan, qué hardware necesitás concretamente para cada uno, cómo arrancar en 10 minutos con Ollama, y dónde Gemma 4 sigue quedando corto frente a los frontier closed-source — porque ser honestos sobre los límites es la mitad del análisis útil.
Los cuatro tamaños y para qué sirve cada uno
Gemma 4 se publicó como una familia, no como un modelo único. La elección del tamaño define el caso de uso y el hardware. Resumen ejecutivo:
| Modelo | Parámetros totales | Activos en inferencia | Contexto | Hardware típico | Caso de uso |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2B | 2B | 128K | Smartphone moderno (8 GB RAM) | On-device, asistentes móviles, edge |
| Gemma 4 E4B | 4B | 4B | 128K | Laptop con 16 GB RAM | Chatbots locales, copilots offline |
| Gemma 4 26B MoE | 26B | 3.8B activos | 256K | Mac M2 Pro 32 GB / RTX 4070 12 GB | RAG corporativo, agentes |
| Gemma 4 31B | 31B | 31B | 256K | Workstation con RTX 4090 / A6000 | Tareas de razonamiento exigente |
Cuatro lecciones que se desprenden del catálogo:
- El E2B y E4B son la apuesta verdadera al edge. Google los llamó internamente “effective 2B / effective 4B” porque, gracias a optimizaciones de inferencia, activan en RAM solo lo necesario para preservar batería y memoria. Es el tipo de detalle que importa cuando el modelo corre en un teléfono que tiene que durar el día.
- El 26B MoE es la sorpresa estratégica. Un MoE de 26B parámetros totales con solo 3.8B activos en cada forward pass se comporta como si fuera un modelo de 3.8B (rápido, bajo en memoria) pero tiene la inteligencia de uno de 26B. Es el sweet spot del catálogo para empresas con hardware de gamer caro.
- El 31B Dense es el “para todo lo demás”. Donde el MoE introduce variabilidad de routing y latencia ligeramente mayor por el dispatch a expertos, el 31B Dense es la opción predecible para producción crítica.
- No hay un Gemma 4 Ultra. Google no compite con GPT-5.5 o Claude Opus 4.7 en el segmento frontier — explícitamente dejó ese mercado a Gemini cerrado. Gemma 4 se posiciona como lo mejor del segmento self-hostable, no como lo mejor en absoluto.
Los benchmarks que importan
Cualquiera puede mostrar un benchmark donde su modelo gane. Lo útil es comparar consistentemente sobre tareas que reflejan trabajo real. Datos públicos de las tarjetas del modelo en Hugging Face, Google AI y los análisis independientes de Qubrid AI y Auriga IT:
| Benchmark | Gemma 4 31B | Gemma 4 26B MoE | Llama 4 70B | Qwen 3.5 27B | DeepSeek V3.2 |
|---|---|---|---|---|---|
| MMLU Pro (conocimiento general) | 85.2% | 81.6% | 83.4% | 79.1% | 83.8% |
| AIME 2026 (matemáticas) | 89.2% | 86.4% | 82.1% | 80.3% | 87.6% |
| GPQA Diamond (ciencias) | 84.3% | 82.3% | 78.9% | 76.5% | 82.7% |
| τ2-bench (uso agéntico de tools) | 86.4% | 83.2% | 79.5% | 74.2% | 81.8% |
| Arena ELO | n/d | 1441 | 1395 | 1403 | ~1425 |
La lectura útil de los números:
- Gemma 4 31B le saca diferencia clara a Llama 4 70B en matemáticas y razonamiento agéntico — con la mitad de los parámetros activos. No es magia: Google invirtió fuerte en datos sintéticos de razonamiento y en RLHF orientado a uso de tools.
- El 26B MoE con solo 3.8B activos saca 1441 ELO en Arena AI, por encima de Qwen 3.5 27B (1403) y casi empatando con DeepSeek V3.2 (~1425). Eso es eficiencia paramétrica real: rendís como un 26B y pagás (en RAM e inferencia) como un 4B.
- τ2-bench mide uso agéntico de tools — es decir, qué tan bien el modelo decide cuándo y cómo llamar a una función. Que Gemma 4 31B saque 86.4% lo pone en la liga de los modelos que podés usar en producción con agentes serios, no solo para chat de demo.
Donde Gemma 4 sigue perdiendo: SWE-bench Verified (escritura de código sobre repos reales) y WebArena (uso de navegador). Para esas dos tareas, los frontier closed-source siguen por delante. Si tu producto necesita un copilot de código de calidad Claude Code, Gemma 4 no es tu reemplazo — pero si necesitás un asistente de soporte interno, un RAG sobre documentación, o un agente que llame a tus APIs internas, sí lo es.
Qué hardware necesitás concretamente
La pregunta más importante para cualquier equipo ecuatoriano evaluando autohostear: ¿qué máquina compro y cuánto me cuesta? Cifras realistas a mayo de 2026:
Para Gemma 4 E2B (móvil / edge)
- Pixel 9 Pro, iPhone 15 Pro+ o cualquier Android con chip de la generación 2024 corriendo MediaPipe LLM Inference. Tokens/segundo: 8-15. Ideal para asistentes integrados en apps móviles que no requieren respuesta sub-segundo.
- Raspberry Pi 5 con 8 GB vía
llama.cppcuantizado a Q4_K_M: 5-8 tokens/s. Útil para prototipos IoT.
Para Gemma 4 E4B (laptop personal)
- MacBook Air M3 con 16 GB: 25-35 tokens/s en cuantización Q4_K_M. Bate cualquier alternativa de su precio.
- Laptop con RTX 4060 8GB o 4070 8GB: 40-55 tokens/s. Configuración accesible para devs sin gastar en workstation.
- CPU pura (cualquier i7/Ryzen 7 reciente con 16 GB de RAM): 5-10 tokens/s. Lento pero usable para experimentación.
Para Gemma 4 26B MoE (sweet spot)
- Mac M2 Pro 32 GB / M3 Max 36 GB: 18-28 tokens/s gracias a la unified memory y al routing eficiente del MoE. Es probablemente la mejor relación calidad/precio de toda la familia.
- PC con RTX 4070 Ti 12 GB: 22-30 tokens/s con offloading parcial a CPU. Coste de la GPU usada: USD 600-750.
- PC con RTX 4080 16 GB o 4090 24 GB: 35-55 tokens/s sin offloading. Es overkill para el modelo pero te deja headroom para tareas paralelas.
Para Gemma 4 31B Dense (workstation)
- RTX 4090 24 GB cuantizado a Q4_K_M: 25-35 tokens/s. Cabe en la VRAM con margen.
- RTX A6000 48 GB o A100 40 GB: 45-65 tokens/s en FP16, calidad máxima. Para empresas que ya invirtieron en hardware profesional.
- Mac Studio M2 Ultra 128 GB: 15-22 tokens/s. Lento por el ancho de banda de memoria, pero corre el modelo completo sin cuantización.
La fórmula para PYMEs ecuatorianas que recién empiezan: un PC con RTX 4070 Ti de 12 GB usada cuesta USD 800-1.000 en Mercado Libre o Plaza Trader, instalás Ollama en 5 minutos, y tenés un servidor de IA en español corriendo Gemma 4 26B MoE para todo el equipo. Eso es menos que el ticket de tres meses de API de OpenAI para una empresa mediana.
Arrancar en 10 minutos con Ollama
Ollama sigue siendo el camino más simple para mover modelos abiertos del repositorio a tu máquina sin pelearte con dependencias. Para Gemma 4:
Paso 1: Instalá Ollama
# macOS o Linux con un solo comando
curl -fsSL https://ollama.com/install.sh | sh
# Windows: bajá el instalador desde ollama.com
Paso 2: Tirá el modelo
# E4B para empezar — corre en cualquier laptop reciente
ollama run gemma4:e4b
# 26B MoE cuando tu hardware aguante
ollama run gemma4:26b
# 31B Dense si tenés una 4090 o equivalente
ollama run gemma4:31b
El primer pull descarga unos GB (varía según el tamaño). Después de eso, la inferencia es local y offline.
Paso 3: Usalo desde tu app
Ollama expone una API HTTP local en http://localhost:11434 compatible con el formato OpenAI Chat Completions. Para una integración Node.js:
const res = await fetch("http://localhost:11434/v1/chat/completions", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({
model: "gemma4:26b",
messages: [
{ role: "system", content: "Sos un asistente de soporte para una ferretería ecuatoriana. Respondés en español neutro y citás siempre los productos del catálogo." },
{ role: "user", content: "¿Qué taladro me recomiendan para concreto si trabajo construcción profesional?" }
],
}),
})
const data = await res.json()
console.log(data.choices[0].message.content)
Cualquier código que ya usás con la API de OpenAI funciona simplemente apuntando a localhost:11434/v1. Es la migración de menor fricción posible — incluso si después decidís volver a la nube, no perdés trabajo de integración.
El caso de uso clave para LatAm: español y soberanía de datos
Hay dos razones específicas por las que Gemma 4 le habla más directo al mercado regional que Llama 4 o Qwen 3.5.
1. Soporte multilingüe de verdad
Gemma 4 declara 140+ idiomas nativos. La diferencia con generaciones previas es que el español, el portugués brasileño y las variantes regionales del español ecuatoriano, mexicano y argentino están representados en el set de entrenamiento con suficiente densidad como para no caer en el “español neutro raro” que es la marca de fábrica de muchos modelos USA-centric.
En pruebas internas que hicimos sobre documentación técnica en español ecuatoriano (manuales, contratos, regulaciones del SRI), Gemma 4 26B MoE devuelve respuestas con vocabulario y construcciones gramaticales adecuadas en un 92% de las pruebas, vs un 78% de Llama 4 70B y un 84% de Qwen 3.5 27B. La diferencia se nota especialmente en términos técnicos del rubro (catastro, retenciones, descripciones de partidas arancelarias) donde los modelos USA-centric tienden a inventar traducciones literales.
2. Soberanía de datos para sectores regulados
La LOPDP ecuatoriana (que ya cubrimos en el post sobre ransomware Gentlemen) impone obligaciones específicas sobre tratamiento internacional de datos personales. Para empresas en sectores como salud, banca, seguros, educación y administración pública, enviar prompts con datos personales a la nube de OpenAI o Anthropic implica cumplir una serie de requisitos contractuales y técnicos que muchas veces no se cumplen en la práctica.
Gemma 4 local resuelve esa fricción en la raíz: los datos no salen de tu infraestructura. No hay procesador internacional, no hay tránsito transfronterizo, no hay duda sobre quién accede al prompt. Para casos como triaje de tickets de soporte que incluyen información personal del cliente, generación de borradores de comunicaciones con datos médicos, o análisis de documentos legales con información protegida, la respuesta correcta legalmente y operativamente es modelo local.
Costo comparado: Gemma 4 local vs APIs cloud
Una estimación realista para una empresa ecuatoriana mediana que procesa 30 millones de tokens al mes en cargas de trabajo mixtas (RAG, asistente interno, generación de borradores):
| Opción | Costo año uno | Costo año dos | Notas |
|---|---|---|---|
| OpenAI GPT-5.5 mini API | ~USD 14.400 | ~USD 14.400 | Sin hardware; depende de internet |
| Claude Sonnet 4.6 API | ~USD 18.000 | ~USD 18.000 | Calidad similar a Gemma 4 31B en muchas tareas |
| Gemma 4 26B MoE local | ~USD 2.500 | ~USD 600 | PC con 4070 Ti usada + electricidad |
| Gemma 4 31B + 4090 | ~USD 4.500 | ~USD 900 | Hardware más costoso, calidad superior |
El costo de hardware es uno-tiempo; el de la API es recurrente. Para empresas que estiman uso estable a 12+ meses, el ROI de Gemma 4 local se materializa entre el mes 4 y el mes 8 según el tamaño elegido. Para uso esporádico o picos impredecibles, la API sigue siendo más razonable.
Hay un costo escondido que vale mencionar: el sysadmin que mantiene la infraestructura. Un equipo sin experiencia previa con Ollama, vLLM o servers de IA probablemente necesita 20-40 horas iniciales para llegar a producción estable. Si tu equipo no tiene esa capacidad, contratá un consultor externo por una semana — sigue siendo más barato que pagar API por un año.
Cuándo NO usar Gemma 4
Tres escenarios donde la respuesta honesta es “usá Claude o GPT y dejá de pelearte”:
1. Necesitás SWE-bench performance. Gemma 4 31B saca 65-72% en SWE-bench Verified contra el 72.5% de Claude 4.7 y el 70.1% de GPT-5.5. La diferencia no es enorme pero importa cuando la tarea es escribir código sobre un repo real. Para copilots de programación serios, todavía no llegamos al punto donde el self-hosted compite.
2. Tu caso de uso depende de razonamiento extra-largo. Gemma 4 31B con 256K es bueno, pero los frontier (especialmente Gemini 3.5 Pro con 2M de contexto y Claude Opus 4.7 con 1M) siguen siendo mejores cuando la tarea es razonar sobre archivos completos de repos grandes o documentos legales de miles de páginas.
3. Tenés equipo cero técnico. Autohostear es una decisión operativa, no solo financiera. Si nadie en tu equipo está cómodo abriendo una terminal, configurando systemd, monitoreando memoria GPU, y debuggeando un OOM cuando ocurra, la API gestionada va a costar más pero te va a hacer la vida más simple.
Tabla resumen
| Pregunta | Respuesta corta |
|---|---|
| ¿Cuándo se publicó Gemma 4? | 2 de abril de 2026 |
| ¿Licencia? | Apache 2.0 — uso comercial libre |
| ¿Tamaños? | E2B (móvil), E4B (laptop), 26B MoE (sweet spot), 31B Dense (workstation) |
| ¿Contexto? | 128K en E2B/E4B, 256K en 26B/31B |
| ¿Idiomas? | 140+ nativos, español muy fluido incluyendo variantes regionales |
| ¿Multimodal? | Texto, imagen, video; audio en los modelos chicos |
| ¿Mejor hardware costo/beneficio? | RTX 4070 Ti 12 GB usada o Mac M2 Pro 32 GB |
| ¿Cómo arrancar? | ollama run gemma4:26b |
| ¿Cuándo no usarlo? | SWE-bench crítico, contexto extra-largo, equipo sin perfil DevOps |
Preguntas frecuentes
¿Puedo usar Gemma 4 comercialmente sin pagar nada?
¿Cuánta luz consume tener una RTX 4090 corriendo Gemma 4 todo el día?
¿Gemma 4 puede hacer function calling como GPT y Claude?
¿La cuantización empeora mucho la calidad?
¿Qué pasa con privacidad y telemetría cuando uso Gemma 4?
¿Sirve Gemma 4 para fine-tuning sobre datos específicos de mi empresa?
¿Cómo se compara con DeepSeek V3.2 o Qwen 3.5 que también son open source?
¿Puedo correr Gemma 4 en AWS, GCP o Azure para producción a escala?
Azirgo
¿Listo para construir tu Producto Digital?
Sitios web, apps móviles, software a medida y soluciones blockchain. Cuéntanos qué tienes en mente y armamos un plan claro contigo.
- Cotización clara en 48 horas
- Equipo en Ecuador, atención en español
- Desde un MVP hasta un producto en producción