Esto no es un
video generador.
Es un modelo mundial.
Demis Hassabis no vino a Google I/O 2026 para anunciar una función. Vino para anunciar una nueva tipo de IA — Un sistema que no solo procesa datos de entrada y produce resultados, sino que desarrolla una comprensión interna de la realidad lo suficientemente profunda como para simular lo que debería suceder a continuación. Aquí te explicamos qué es Gemini Omni, qué hace actualmente y cómo se compara con sus competidores, sin exageraciones.
Actualmente, todos los laboratorios de IA importantes cuentan con un generador de vídeo. Runway, Kling, Pika, Veo... todos siguen prácticamente el mismo modelo: se escribe una solicitud, se hace clic en generar, se espera y se obtiene un vídeo. Si no gusta, se vuelve a escribir la solicitud y se intenta de nuevo.
Gemini Omni funciona de manera diferente. Y esa diferencia es más significativa de lo que se ha reflejado en la mayoría de los artículos sobre I/O 2026. Es una afirmación audaz, por lo que este artículo explica en detalle qué es, qué hace actualmente, cómo se compara con sus principales competidores, cómo acceder a él ahora mismo y hacia dónde se dirige realmente.

¿Qué es Gemini Omni?
Géminis Omni es la nueva familia de modelos de IA multimodal de Google DeepMind, anunciada el 19 de mayo de 2026. Su característica definitoria combina dos cosas que anteriormente existían en sistemas separados: El razonamiento lingüístico de Gemini y los modelos de medios generativos de Google. Demis Hassabis afirmó que combina Gemini con Veo, Nano Banana y Genie, describiéndolo como "nuestro nuevo modelo capaz de crear cualquier cosa a partir de cualquier dato de entrada".
En pocas palabras: dale una foto, una grabación de voz, un vídeo existente, una descripción de texto o cualquier combinación, y producirá un vídeo. Luego, sigues hablándole para perfeccionar lo que ha creado. La primera versión disponible es Géminis Omni FlashSe está desarrollando una versión más potente del Gemini Omni Pro para la publicidad profesional y la producción de vídeo.
Google posiciona a Omni como un modelo del mundo real, más que como un generador de vídeo convencional. Está diseñado para comprender entornos físicos, predecir causas y efectos, y procesar texto, audio, imágenes y vídeo de forma conjunta. A diferencia de Sora, Runway o Veo, que generan principalmente clips a partir de texto, Omni busca simular el comportamiento del mundo real con mayor precisión.
Cuando un objeto cae, cae correctamenteCuando dos materiales chocan, la interacción refleja la física real, no una aproximación basada en patrones de cómo se ven esas interacciones en las grabaciones de entrenamiento.
La advertencia honesta, según la propia Google: las actualizaciones más importantes de Omni llegarán a finales de este año, lo que significa que la versión lanzada es una variante inicial y rápida, no el modelo completo del mundo que sugiere la retórica de la IA general. Las capacidades de física y comprensión del mundo se profundizarán significativamente en versiones posteriores.
Características principales de Géminis Omni Flash.
La mayoría de las herramientas de vídeo con IA aceptan un texto de ejemplo. Algunas aceptan una imagen de referencia junto con él. Gemini Omni acepta todo lo siguiente, simultáneamente, en un solo mensaje:
- Texto — descripciones, guiones, instrucciones
- Imágenes — fotos de productos, referencias de personajes, guías de estilo
- Audio — grabaciones de voz, pistas musicales, sonido ambiental
- Vídeo existente — clips para remezclar, extender o transformar
En lugar de combinar las entradas, el modelo las interpreta para generar una única salida, y luego acepta modificaciones adicionales mediante la conversación. Sube una foto del producto, pega el eslogan de la marca, graba una nota de voz describiendo el estado de ánimo, y Omni sintetiza un único vídeo coherente a partir de los tres elementos. Sin pasos de procesamiento adicionales. Sin montaje manual.

Esta es la capacidad más distintiva de Omni. Cada instrucción se basa en la anterior, y las indicaciones pasadas se mantienen entre turnos, de modo que el vídeo evoluciona de forma coherente a medida que se avanza. En lugar de las clásicas líneas de tiempo y capas, se indica qué cambiar:

Esto es categóricamente diferente a volver a solicitar información a un generador de vídeo. Ejemplo de Google: "Cuando la persona toca el espejo, este se ondula bellamente como un líquido, y el brazo de la persona se transforma en un material reflectante similar al de un espejo." — un nivel de instrucciones específicas para cada escena y que tienen en cuenta la física, que requeriría una edición manual fotograma a fotograma en cualquier herramienta tradicional.
Hassabis mostró Omni mediante un video de animación con plastilina que explicaba el plegamiento de proteínas, convirtiendo la ciencia compleja en imágenes que se pueden ver. El video mantuvo la coherencia física: los materiales se comportaron como plastilina, el movimiento siguió la lógica de la animación cuadro por cuadro y la ciencia se representó con precisión. Esta es la expresión práctica del marco del modelo del mundo: el modelo entiende por qué Las cosas se mueven, no solo qué El movimiento se ve similar en los datos de entrenamiento.

Google está adoptando un enfoque cauteloso, asegurándose de que cada video generado lleve consigo una Marca de agua digital SynthID Para garantizar la autenticidad, de forma automática e invisible, en cada resultado. Es detectable mediante las herramientas de Google y, tras el I/O 2026, también por OpenAI, Kakao y Eleven Labs, que adoptaron el estándar.
- límite de 10 segundos — Google afirma que se trata de una decisión de implementación, no de una limitación del modelo.
- Sin edición de audio — La sustitución de voces y la modificación de audio dentro de los clips se mantienen deliberadamente en espera de revisión.
- La API aún no está disponible. — El acceso para desarrolladores y empresas estará disponible "en las próximas semanas" a partir del 19 de mayo.
- Restricciones regionales y por edad — requiere ser mayor de 18 años y estar disponible en los mercados donde opera la aplicación Gemini.
Gemini Omni vs. Veo 3.1 — ¿Cuál es la diferencia?
Esta es la fuente de confusión más común. Veo es un modelo dedicado a la generación de video con razonamiento limitado. Omni es un modelo de razonamiento que, casualmente, genera video. — interpreta indicaciones complejas, edita entre turnos y acepta tipos de entrada más variados.
| Géminis Omni Flash | Veo 3.1 | |
|---|---|---|
| Tipos de entrada | Texto + imagen + audio + vídeo | Texto + imagen |
| Edición conversacional | ✓ Sí | ✕ No |
| Física / simulación mundial | ✓ Sí | Parcial |
| Longitud máxima del clip | 10s (actual) | ~8 segundos |
| Acceso a la API | Próximas semanas | ✓ Ahora |
| Lo mejor para | Trabajo complejo e iterativo | De una sola generación y alta calidad |
| Acceso gratuito | Cortometrajes de YouTube | Aplicación Gemini (~5–10/día) |
La relación es complementaria, no competitiva. Para obtener la máxima calidad de una sola generación y un acceso API fiable, Veo 3.1 sigue siendo la opción más práctica. Para el trabajo iterativo y conversacional, especialmente al combinar diferentes tipos de entrada, Gemini Omni es la herramienta que no existía antes del 19 de mayo.
Omni contra el completo campo competitivo.
Kling 3.0 Omni admite secuencias de varias tomas con una línea de tiempo de audio compartida y diálogos nativos en cinco idiomas. Para la narración de historias en formato multitoma con audio nativo, ofrece mayor duración de clip (hasta 15 s) y coherencia entre escenas. La ventaja de Omni reside en la precisión de la conversación y la profundidad de la entrada multimodal.
Runway Gen-4.5 sigue siendo el estándar profesional en precisión de control de cámara: dirección de tomas, comportamiento de la lente, coreografía de movimientos. Es una herramienta para directores. Omni es más bien un colaborador creativo: ofrece más opciones de entrada, una iteración más natural, pero un control cinematográfico menos preciso.
Seedance 2.0 es la opción ganadora para contenido narrativo, gracias a sus revolucionarias capacidades nativas de grabación multi-toma y la sincronización de audio y video a partir de una sola indicación. Para videos con una narrativa sólida y continuidad multi-toma, es la mejor opción actualmente. La integración nativa de Omni con el ecosistema de Google y la edición conversacional le otorgan una propuesta de valor diferente, pero no inferior.
Sora ya no es una referencia válida. OpenAI suspendió las experiencias web y de aplicación de Sora el 26 de abril de 2026, y la API de Sora dejará de funcionar el 24 de septiembre de 2026. Cualquier sistema que dependiera de Sora deberá migrar.
| Omni Flash | Kling 3.0 | Pista 4.5 | Seedance 2.0 | Veo 3.1 | |
|---|---|---|---|---|---|
| Edición conversacional | ✓ | ✕ | ✕ | ✕ | ✕ |
| Longitud máxima | 10s | 15s | 10s | 15-20 años | ~8 segundos |
| Audio nativo | ✓ | ✓ | ✕ | ✓ | ✓ |
| Disparo múltiple | ✕ | ✓ | Parcial | ✓ | ✕ |
| API ahora | Pronto | ✓ | ✓ | ✓ | ✓ |
| Nivel gratuito | YT Shorts | 66 millones de rupias al día | Limitado | ✕ | Aplicación Gemini |
Cómo acceder a Gemini Omni ahora mismo.
Esta semana, Gemini Omni Flash se lanza gratuitamente en YouTube Shorts y YouTube Create. Google aprovecha la plataforma de distribución de YouTube para que Omni llegue a cientos de millones de usuarios sin coste adicional. Abre YouTube Shorts o la app Create y busca la opción de creación de vídeo con IA: Omni Flash es la herramienta que lo impulsa. Es la forma más rápida de probarlo, sin necesidad de suscripción.
| Plan | Mensual | Acceso omnidireccional a Gemini |
|---|---|---|
| Google AI Plus | $7.99 | Aplicación Gemini + Google Flow |
| Google AI Pro | $19.99 | Acceso completo + límites más altos |
| Google AI Ultra | $100 | Acceso prioritario + cuotas ampliadas |
La generación de vídeo consume una parte importante de la cuota diaria; planifica tu sesión para un trabajo creativo iterativo, no para la producción en masa.
En las próximas semanas, Google lanzará Omni Flash para desarrolladores y empresas a través de API. Aún no se ha anunciado una fecha definitiva. Los desarrolladores pueden unirse a la lista de espera de Google AI Studio y consultar las notas de la versión de la API Gemini.
- Abre la aplicación Gemini e inicia sesión con un plan Plus, Pro o Ultra.
- En el selector de modelos, elija Géminis Omni Flash (si se ha implementado en tu región)
- Sube material de referencia: imagen, clip de audio o vídeo existente.
- Escribe tu primera consigna describiendo qué generar.
- Revise el resultado de 10 segundos.
- Refinar mediante la conversación: "cambiar la iluminación", "mover la cámara hacia la izquierda".
- Cuando esté satisfecho, descárguelo o compártalo directamente en YouTube.
Mundo real casos de uso.
Sube una sola foto del producto, describe la atmósfera que transmite, crea un clip de 10 segundos listo para Shorts con movimiento y ambientación, y luego perfecciona la conversación hasta que se ajuste a la estética de tu canal.
Omni se está integrando en Estudio de activos Para la generación de contenido de vídeo dentro de la plataforma de Google Ads. Genera variantes de anuncios a partir de imágenes y textos de productos, y luego pruébalas en campañas de generación de demanda. Sin una producción cinematográfica.
Explicaciones generadas por IA, narración visual, resúmenes de noticias. La demostración de animación en plastilina sobre el plegamiento de proteínas es precisamente eso: conceptos complejos convertidos en explicaciones visuales precisas. sin conocimientos de animación.
Genera animaciones preliminares a partir de una lista de planos, luego refina los ángulos de cámara, la iluminación y la acción a través de la conversación. Comprimir días de previsualización en horas.
«Utiliza la foto del producto adjunta y crea una toma principal: el objeto gira 360° sobre mármol, sale vapor, la iluminación es de estudio y suena jazz suave». Una imagen estática se convierte en un vídeo en bucle, listo para la web o las redes sociales.
Por qué esto es importante más allá del vídeo.
El cambio más importante es que el vídeo con IA está pasando de una generación única a Creación basada en la conversación. Esto no es solo una mejora de la experiencia de usuario, sino que cambia radicalmente quién puede crear vídeos. La barrera histórica era la habilidad técnica: cronogramas, fotogramas clave, corrección de color, mezcla de audio. Omni reemplaza esa curva de aprendizaje con lenguaje natural. Describes lo que quieres, lo que falla y lo que sigue. El modelo se encarga de la traducción técnica.
La misma capacidad de modelado del mundo que hace que un espejo generado se ondule correctamente al tocarlo es, a un nivel más profundo, la misma capacidad necesaria para que la IA funcione en entornos físicos — robótica, simulación, modelado científico.
Hassabis describió Omni como un paso hacia la IA general, haciendo hincapié en que el verdadero progreso reside en comprender el mundo físico, no solo en producir imágenes realistas. Por ahora, la realidad práctica es más sólida: un modelo que acepta cualquier tipo de medio, genera vídeo coherente y permite refinarlo mediante la conversación es realmente novedoso. No es una mejora incremental, sino algo radicalmente diferente.
Preguntas frecuentes preguntas.
¿Qué es Gemini Omni?
¿Gemini Omni es gratuito?
¿En qué se diferencia Gemini Omni de Veo?
¿Cuánto pueden durar los vídeos?
¿Cuándo estará disponible la API?
¿Qué entradas acepta?
¿Está disponible la edición de audio?
Gemini Omni no es el mejor generador de vídeo disponible en la actualidad. Lo que introduce es algo que ninguna de esas herramientas ofrece.
En cuanto a la calidad de grabación en bruto de una sola generación, Kling 3.0 y Veo 3.1 producen clips más pulidos y de mayor duración, con acceso API ya disponible. En coherencia narrativa en tomas múltiples, Seedance 2.0 lleva la delantera. En precisión de control de cámara, Runway Gen-4.5 sigue siendo el estándar profesional.
Omni presenta un proceso de creación de vídeo que funciona como una conversación. Dale lo que quieras —texto, foto, audio, imágenes—, obtén un vídeo, dile qué cambiar y sigue hasta que quede perfecto. Sin necesidad de empezar de cero. Sin edición de la línea de tiempo. Sin barreras técnicas entre tu intención creativa y el resultado. Ese es el cambio. No es un generador mejor. Es un tipo de creación diferente.
Acceda a Gemini Omni — y a todas las API de vídeo — a través de una plataforma.
Cuando se abra la API de Omni, tendrás dos opciones: gestionar una cuenta de facturación, una clave y una cuota de Google Cloud independientes junto con tus integraciones de Kling, Runway, Seedance y Veo, o acceder a todas ellas a través de una única puerta de enlace.
ai.cc Es la plataforma API de IA unificada que ofrece a desarrolladores y equipos de contenido una clave, un panel de control y una factura únicos para todos los modelos principales: Gemini Omni Flash, Veo 3.1, Seedance 2.0, GPT Image 2.0, Suno y más. Cuando se lance la API empresarial de Omni, estará disponible inmediatamente a través de ai.cc, sin necesidad de configurar ninguna cuenta adicional.
Empieza hoy mismo en www.ai.cc →

Acceso