Gemini Omni: el modelo que convierte casi todo en video

Durante dos años la conversación sobre video generativo se redujo a “qué tan parecido a Sora se ve”. Sora, Veo, Runway, Kling, Pika — todos pelearon por el mismo eje: realismo del clip generado desde un prompt de texto. El 19 de mayo de 2026 Google cambió la pregunta. Gemini Omni, anunciado en I/O 2026, no compite por “el clip más realista”. Compite por algo distinto: convertir cualquier combinación de inputs — texto, imágenes, audio, otros videos — en un video coherente, y permitir editarlo conversacionalmente sin abrir un timeline.

El primer modelo de la familia, Gemini Omni Flash, ya está disponible. No es preview, no es waitlist regional, no es “rolling out lentamente”. Salió a producción el mismo día del anuncio en la app Gemini, en Flow (el editor creativo de Google) y — la noticia más subestimada — gratis dentro de YouTube Shorts y la app YouTube Create. Eso último cambia el cálculo económico para creadores de contenido en LatAm de manera material: ya no necesitás pagar Runway, RunwayML, ni Sora Premium si tu output final vive en YouTube.

Este post desarma qué es Omni exactamente, qué puede hacer hoy, qué deja explícitamente fuera (la respuesta sorprende), cómo se compara con Veo 3.1 — que reemplaza — y con Sora 2, Runway Gen-4 y Kling 2.0, y qué casos de uso tiene sentido explorar primero si vivís en Ecuador o LatAm.

Qué es Gemini Omni y por qué importa

Gemini Omni es un modelo generativo multimodal con razonamiento Gemini integrado. Esa última parte es la clave. Hasta Omni, los modelos de video generativo funcionaban como sistemas separados: un encoder multimodal por un lado, un generador de video por el otro, pegados con cinta. El resultado eran clips visualmente impresionantes pero “tontos” — no entendían física, no respetaban continuidad entre frames, no recordaban contexto entre ediciones.

Omni colapsa esa separación. Es el mismo razonamiento que potencia Gemini 3.5 Flash, pero aplicado a generación visual. Eso se traduce en tres mejoras concretas:

Física correcta: los objetos pesan, las pelotas rebotan, los líquidos fluyen, las telas se mueven con gravedad. No es perfecto pero es notoriamente mejor que cualquier modelo previo de Google y compite seriamente con Sora 2.
Memoria de escena entre ediciones: si pedís “cambiá el color de la chaqueta del personaje a rojo” en un clip, Omni mantiene la identidad del personaje, el fondo, el ritmo de movimiento y la iluminación. Los modelos anteriores re-generaban todo y rompían continuidad.
Reasoning sobre conocimiento del mundo: si pedís “explicame plegamiento de proteínas en estilo claymation”, Omni genera un clip que es técnicamente correcto (no inventa estructuras), no solo visualmente plausible. Esa pieza es lo que Google llama “intelligence + rendering”.

El nombre “Omni” señala la ambición declarada: el modelo está diseñado para crear cualquier output desde cualquier input. Hoy genera video. El roadmap incluye imágenes y audio nativos como output (sin fecha). En texto Google sigue separando Gemini (lectura) y Omni (creación) por ahora, pero arquitectónicamente nada impide que converjan en el siguiente ciclo.

”Create anything from anything”: cómo funciona el input multimodal

La promesa de Omni es que aceptes cualquier combinación de modalidades en un solo prompt. En la práctica eso significa:

“Tomá esta foto de mi gato + este clip de audio de él maullando + texto ‘corriendo por la sala con cámara lenta’ → video de 10 segundos”.
“Tomá este video corto de un café + audio de una conversación + reemplazá a la persona con un avatar mío hablando en español ecuatoriano”.
“Tomá estas 5 fotos del producto + descripción del catálogo + estilo del último anuncio que publiqué → video promocional de 10 segundos”.

A diferencia de pipelines anteriores que stitcheaban inputs por separado (imagen → control net → video → audio sobrepuesto), Omni razona sobre todos los inputs juntos y genera un solo output coherente. Esa diferencia se nota en la continuidad: el audio se sincroniza con el movimiento, la iluminación de la foto se respeta en la animación, el estilo del anuncio se aplica sin contradecir las fotos del producto.

Los modos que soporta hoy

Input → Output	Disponible al lanzamiento
Texto → Video	Sí
Texto + imagen(es) → Video	Sí (hasta 5 imágenes de referencia)
Texto + video → Video editado	Sí
Texto + audio (voz) → Video con voz sincronizada	Sí, en preview regional
Texto + foto + audio → Avatar hablando	Sí, requiere onboarding del avatar
Imagen → Imagen editada	Pronto, mismo modelo
Texto → Audio narrado	Pronto, mismo modelo

El modo más interesante para muchos creadores es avatar. Omni te permite grabar una sesión de onboarding (Google pide leer una serie de números en voz alta — un mecanismo anti-deepfake similar al de Sora 2) y a partir de ahí podés generar videos donde tu avatar aparece y habla. Solo el creador del avatar puede usarlo en su cuenta, lo que mitiga el uso para suplantación de identidad de terceros.

Lo que todavía no puede hacer

Google fue inusualmente transparente sobre las limitaciones. Vale la pena listarlas porque marcan el límite de lo que podés hacer hoy:

Editar audio o voz dentro de un video existente no está disponible. Si subís un video con audio y le pedís a Omni que cambie lo que dice un personaje, no funciona — Google dejó esa capacidad fuera intencionalmente por riesgos de deepfake.
Generar clips más largos de 10 segundos no es posible en Omni Flash. Google dice que es “una decisión de despliegue, no una limitación del modelo”, lo que implica que el modelo puede técnicamente generar más pero no expusieron ese control al usuario al lanzamiento.
Generar contenido con personas identificables sin avatar autorizado está bloqueado por filtros de safety. No vas a poder generar a una celebridad ni a un político en un video.
Audio en lenguaje natural distinto al inglés está en preview limitado. Para voz en español neutro funciona, pero para acentos regionales (ecuatoriano, colombiano, argentino) hay menos calidad. Esperá mejoras en el próximo ciclo.
API pública no está disponible aún. Google la prometió “en las próximas semanas” para developers y empresas vía Vertex AI.

La omisión de edición de audio en video es la decisión política más interesante. Es exactamente la feature que más facilitaría deepfakes, y Google la dejó fuera explícitamente por riesgo reputacional. Es una decisión que probablemente cambien en 6-12 meses cuando tengan más confianza en los filtros — o cuando la presión competitiva los obligue.

Las demos que mostró Google en I/O 2026

La keynote del 19 de mayo incluyó cuatro demos concretas que vale la pena recordar porque definen el rango de uso esperado:

Demo 1: marble physics. Prompt: “una pelota de mármol rodando por un mostrador de cocina, golpeando una taza, haciendo sonar una campana”. El clip resultante tenía física correcta (rebote del mármol, sonido de la campana al impacto, sonidos secundarios coherentes con la materia de cada objeto). Lo importante no era el realismo visual sino que el modelo entendía las relaciones físicas entre los objetos.

Demo 2: claymation explainer de plegamiento de proteínas. Prompt: “un video estilo claymation explicando cómo se pliegan las proteínas, con narración en inglés”. El output fue un clip de stop-motion con narración voice-over que describía estructuras secundarias y terciarias técnicamente correctas. Pieza clave: Omni no inventó estructuras de proteínas; aplicó conocimiento real al render.

Demo 3: edición conversacional. Tomaron un clip generado previamente y le pidieron “cambiá el clima a noche lluviosa, mantené el personaje y el movimiento”. El resultado mantuvo identidad de personaje, ritmo y composición, ajustando solo iluminación, partículas de lluvia y reflejos. Ningún modelo previo de Google había hecho esto sin re-generar todo.

Demo 4: producto a anuncio. Pasaron 5 fotos de un producto + descripción de catálogo + prompt “anuncio de 10 segundos estilo Apple”. Omni armó un video con texto on-screen, transiciones, música sugerida y composición tipo TVC en menos de un minuto de generación. La calidad no compite con un anuncio profesional, pero como point of departure para iterar, es funcional.

Lo común entre las cuatro demos: Omni entiende intención, no solo descripción visual. Los prompts no decían “agregá lluvia con un opacity de 30% y bajá la luminosidad un 40%”. Decían “noche lluviosa”, y Omni resolvió los detalles.

Omni vs Veo 3.1: qué reemplaza y qué hereda

Hasta el 19 de mayo, el modelo de video generativo de Google era Veo 3.1, lanzado en el ciclo anterior. Omni lo reemplaza completamente en la app Gemini, en Flow y en YouTube. Veo 3.1 sigue accesible vía API legacy en Vertex AI para clientes que ya construyeron pipelines arriba, pero no recibe features nuevas.

Diferencias prácticas entre Omni Flash y Veo 3.1:

Capacidad	Veo 3.1	Gemini Omni Flash
Generación texto → video	Sí	Sí, con razonamiento mejorado
Inputs multimodales en un prompt	Limitado (texto + 1 imagen)	Texto + 5 imágenes + audio + video
Audio nativo en el clip	Sí (música, foley básico)	Sí, integrado con física de objetos
Edición conversacional	No	Sí, con memoria de escena
Avatar del usuario	No	Sí, con onboarding anti-deepfake
SynthID watermark	Sí	Sí, V2 más robusto
Duración máxima	12 segundos	10 segundos (Flash; Pro pronto)
Disponible en YouTube Shorts	No	Sí, gratis

Omni hereda de Veo el stack de safety: SynthID watermark, filtros contra contenido violento o sexualizado, bloqueo de identidades públicas. La mejora en SynthID es V2: el watermark sobrevive a recompresión, escalado y screenshot, mientras que el V1 de Veo se podía romper con ciertas operaciones de post.

Para quien construyó workflows con Veo 3.1 vía Vertex AI, la migración a Omni vía API va a requerir cambios — los inputs son distintos (multimodales vs. mono), los outputs traen metadata extra para la edición conversacional, y los precios todavía no se publicaron. La estimación razonable, basada en la relación Flash/Pro en otros modelos de Gemini, es USD 0.05–0.10 por segundo generado para Omni Flash cuando llegue la API.

Distribución: app Gemini, Flow y YouTube Shorts gratis

La estrategia de distribución de Omni es la pieza más agresiva del anuncio y vale la pena entenderla porque señala intención.

App Gemini (todos los planes pagos): incluido en Google AI Plus (USD 20/mes), Pro (USD 30/mes) y Ultra (USD 100/mes). Es el surface principal para consumidores que ya pagan.

Flow (Google AI Plus y arriba): Flow es el editor creativo de Google que combina generación de imagen, video y audio. Omni reemplaza al backend de generación de video con razonamiento mejorado. Para creadores serios, Flow + Omni es probablemente el mejor combo end-to-end disponible hoy.

YouTube Shorts y YouTube Create app (gratis para todos): la decisión que cambia el mercado. Cualquier creador con cuenta de YouTube puede generar videos con Omni Flash sin pagar nada, siempre que el output viva en Shorts. Eso significa:

Onboarding inmediato de millones de creadores que nunca pagaron por un modelo de IA.
Compresión del mercado de creadores de Shorts en LatAm — Runway, Pika y Kling pierden razón de ser para este segmento porque Omni hace lo mismo gratis con integración nativa al feed.
Riesgo de saturación de contenido AI en Shorts. YouTube probablemente va a introducir labeling más visible para distinguir contenido generativo de tradicional en los próximos meses.

La movida es clásica de Google: regalar capacidad cara en superficies que ya controlan (YouTube tiene 2.5B usuarios activos al mes) para sembrar el ecosistema, sabiendo que el largo plazo se monetiza por otro lado (suscripciones de Gemini para creadores avanzados, API para empresas, ads en Shorts mejorado por contenido nuevo).

El asterisco SynthID y la prevención de deepfakes

Cada video generado por Omni lleva SynthID V2, el watermark imperceptible de Google. SynthID V2 incrusta una firma cripto en el dominio de frecuencias del video que sobrevive a:

Recompresión (H.264, H.265, VP9, AV1).
Reescalado (downsampling hasta 360p, upscaling hasta 4K).
Screenshot de frames individuales.
Edición con crop hasta 30% del frame.
Cambios de framerate (24→30→60 fps).

Lo que no sobrevive SynthID V2: recortes muy agresivos del video (más del 50%), filtros de estilo extremos, y conversión a otro medium (capturar el video con una cámara apuntando a la pantalla). Esos casos requieren detectores externos basados en patrones generativos visuales.

Google expuso una herramienta pública en la app Gemini, en Chrome y en Google Search para verificar si un video tiene SynthID. Eso es relevante porque a partir de mayo de 2026 cualquiera puede chequear si un clip viral fue generado por Omni — no por Sora, no por Kling, no por Veo legacy, específicamente por Omni. La cobertura de detección de otros generadores requiere los detectores que cada lab implementa por separado.

Para el ecosistema en LatAm la implicancia es práctica: los medios de comunicación pueden integrar verificación de SynthID en su pipeline editorial. Una nota que recibe un video sospechoso puede correr una verificación de 5 segundos antes de publicarlo. Esa pieza no resuelve deepfakes completos (un mal actor usa otro modelo) pero sí filtra los casos donde Omni es la fuente.

Comparación con Sora 2, Runway Gen-4 y Kling 2.0

Los cuatro competidores serios en video generativo a mayo de 2026.

Métrica	Gemini Omni Flash	Sora 2	Runway Gen-4	Kling 2.0
Duración por clip	10 s	20 s	16 s	15 s
Resolución máxima	1080p	1080p	1080p	720p estable, 1080p experimental
Audio integrado	Sí, físico-coherente	Sí, generativo separado	Sí, vía Runway Audio	Limitado
Edición conversacional	Sí, con memoria	Limitada	Sí, vía Runway Edit	No
Avatares de usuario	Sí, anti-deepfake	Sí, “cameos”	No nativo	No nativo
Costo base	Incluido en AI Plus / Pro / Ultra	USD 20/mes (Plus)	USD 15/mes (Standard)	USD 7/mes (Standard)
YouTube Shorts gratis	Sí	No	No	No
Watermark	SynthID V2	C2PA + visible	Visible	Visible (en gratis)
API pública	Próximas semanas	Vía OpenAI API hoy	Sí, Runway API	Sí, Kuaishou API

La lectura corta:

Sora 2 sigue siendo el techo de calidad visual pura y la mejor duración por clip. Su debilidad es la falta de razonamiento físico al nivel de Omni y la dependencia de la suscripción separada de OpenAI.
Runway Gen-4 es el más sólido en el flujo profesional (edición, masking, control fino, integración con DaVinci). Sigue siendo la elección de cineastas y agencias.
Kling 2.0 gana en relación calidad-precio para mercados con presupuesto ajustado. Su debilidad es la falta de presencia en mercados occidentales y los términos de uso menos claros.
Omni Flash gana en integración con el resto del stack Google (Workspace, YouTube, Gemini app), en costo (gratis en Shorts), y en razonamiento. Pierde en duración por clip.

Para un creador en Ecuador, el cálculo razonable hoy es: Omni Flash para Shorts y experimentación gratuita, Sora 2 si la calidad visual es prioridad y podés justificar el costo, Runway si trabajás en pipeline de producción serio, Kling como complemento barato para volumen.

Casos de uso para creadores en LatAm

Cinco casos donde Omni Flash ya es útil hoy desde Ecuador y la región:

Anuncios cortos para PYMEs. Una panadería en Guayaquil puede subir 4 fotos de su producto + descripción + estilo “calidez familiar” y generar un Short de 10 segundos para Instagram Reels o TikTok. Costo: cero si se publica en YouTube Shorts.
Explicadores educativos. Profesores de colegios secundarios y universidades pueden generar visualizaciones de conceptos (movimiento parabólico, estructuras químicas, eventos históricos). Omni respeta el conocimiento técnico mejor que cualquier modelo previo.
Promociones de eventos locales. Festivales en Quito, eventos gastronómicos en Cuenca, ferias de tecnología — todos casos donde armar un teaser de 10 segundos era caro y ahora es trivial.
Avatares para servicio al cliente en video. Para PYMEs que quieren responder consultas comunes en video sin grabarse, el avatar de Omni permite generar respuestas a la carta. Limitación importante: el avatar es propio del usuario, no genérico.
Pruebas A/B de creatividades. Una agencia puede generar 5 variantes de un anuncio con un mismo prompt cambiando estilo, ritmo o foco, y testear cuál performa mejor antes de invertir en producción real.

Lo que no recomendamos hoy: contenido editorial de medios (riesgo de credibilidad), capturas legales o forenses (clips generados no son evidencia), y contenido para mercados muy regulados (salud, finanzas reguladas) donde la precisión de cada detalle es crítica.

Tabla resumen

Pregunta	Respuesta corta
¿Cuándo se lanzó Gemini Omni?	19 de mayo de 2026 en Google I/O
¿Modelo disponible?	Omni Flash (Pro pronto)
¿Duración máxima por clip?	10 segundos en Flash
¿Inputs aceptados?	Texto, hasta 5 imágenes, audio, video
¿Disponible gratis?	Sí, en YouTube Shorts y YouTube Create
¿Reemplaza a Veo 3.1?	Sí, en app Gemini y Flow
¿Watermark?	SynthID V2, verificable en Chrome y Search
¿API pública?	”Próximas semanas” vía Vertex AI

Preguntas frecuentes

¿Gemini Omni es lo mismo que Veo 3.1 con otro nombre?

No. Omni reemplaza a Veo como modelo de video generativo de Google, pero la arquitectura es distinta: Omni integra el razonamiento de Gemini directamente en la generación, soporta inputs multimodales en un solo prompt (texto + imágenes + audio + video) y permite edición conversacional con memoria de escena. Veo era un modelo de generación más clásico. Omni es una nueva familia.

¿Puedo usar Gemini Omni desde Ecuador?

Sí. A diferencia de Gemini Spark, que arrancó solo en Estados Unidos, Omni Flash se lanzó globalmente desde el día uno. Cualquier suscriptor de Google AI Plus, Pro o Ultra puede usarlo en la app Gemini. Y cualquier creador con cuenta YouTube puede generar Shorts con Omni gratis. La única limitación regional son ciertos modos avanzados (video-to-video) que llegan por fases.

¿Cuánto cuesta usar Gemini Omni?

Gratis dentro de YouTube Shorts y YouTube Create. Incluido en Google AI Plus (USD 20/mes), AI Pro (USD 30/mes) y AI Ultra (USD 100/mes) sin costo extra por clip dentro de los límites del plan. La API pública todavía no tiene precio publicado, pero se espera USD 0.05–0.10 por segundo generado vía Vertex AI cuando esté disponible.

¿Por qué Omni no genera clips de más de 10 segundos si el modelo puede?

Es una decisión de despliegue de Google, no una limitación técnica. Probablemente está relacionado con costo de inferencia (10s ya consume recursos importantes), control de safety (clips más largos son más difíciles de moderar) y diferenciación de tiers (Omni Pro va a ofrecer clips más largos cuando salga). Esperá que el límite suba a 20-30 segundos en versiones siguientes.

¿Cómo funciona el avatar y qué tan seguro es contra suplantación?

Para crear un avatar, Omni te pide grabar una sesión leyendo en voz alta una serie de números que el sistema genera al momento. Eso impide que alguien use grabaciones pre-existentes para clonarte. El avatar resultante queda atado a tu cuenta y solo vos podés usarlo para generar videos. Si querés revocar el avatar lo borrás desde Settings y deja de ser utilizable inmediatamente.

¿Puedo usar Omni para hacer doblajes o cambiar la voz de un video existente?

No al lanzamiento. Google explícitamente dejó fuera la edición de audio y voz dentro de videos existentes porque es la feature con más riesgo de uso malicioso (deepfakes de voz). Lo prometieron 'cuando puedan ofrecerlo responsablemente'. Si necesitás hacer doblaje hoy, ElevenLabs o Descript siguen siendo las opciones principales.

¿Cómo se compara la calidad visual de Omni con Sora 2?

Sora 2 sigue arriba en realismo visual puro y duración por clip (20s vs 10s). Omni gana en razonamiento físico (objetos pesan, interactúan correctamente), memoria de escena entre ediciones, y conocimiento del mundo aplicado al render. Para clips cortos donde la coherencia importa más que el detalle fotorrealista, Omni compite. Para clips largos cinematográficos, Sora 2 sigue siendo la elección.

¿Qué pasa si alguien usa Omni para crear contenido falso sobre mí?

Hay tres capas de protección. Primera: el filtro de identidad bloquea generar a personas reales identificables (celebridades, políticos, contactos de tu Google) sin avatar autorizado. Segunda: SynthID V2 incrusta una firma cripto en todos los outputs que sobrevive a recompresión y permite verificar el origen. Tercera: Google expone verificadores públicos en Chrome y Search. Ninguna capa es perfecta pero juntas mitigan significativamente.

Azirgo

¿Listo para construir tu Producto Digital?

Sitios web, apps móviles, software a medida y soluciones blockchain. Cuéntanos qué tienes en mente y armamos un plan claro contigo.

Cotización clara en 48 horas
Equipo en Ecuador, atención en español
Desde un MVP hasta un producto en producción

Empezar cotización Ver portafolio

O escríbenos a [email protected]