这不是
视频 发电机。
这是一个 世界模型。
Demis Hassabis 出席 2026 年 Google I/O 大会并非为了发布一项新功能,而是为了宣布一项新举措。 某种人工智能 ——这套系统不仅处理输入和产生输出,还能构建足够深入的现实内部理解,从而模拟接下来应该发生的事情。以下是 Gemini Omni 的真正面貌、它目前的功能以及它与所有竞争对手的对比——摒弃一切夸大宣传。
现在几乎所有主流人工智能实验室都配备了视频生成器。Runway、Kling、Pika、Veo——它们的运作模式大致相同:输入提示,点击生成,等待,即可获得一段视频。如果不满意,可以重新输入提示再试一次。
Gemini Omni 的运作方式截然不同。而且,这种差异比 I/O 2026 大会上大多数报道所提及的更为显著。这的确是一个大胆的说法——因此,本文将详细解读 Gemini Omni 的本质、它目前的实际功能、它与所有主要竞争对手的比较、如何立即使用它以及它的未来发展方向。

Gemini Omni是什么?
双子座全能 是GoogleDeepMind于2026年5月19日发布的新型多模态人工智能模型系列。其主要特点是将以前存在于不同系统中的两个功能结合起来: Gemini 的语言推理和 Google 的生成式媒体模型。 Demis Hassabis 表示,它结合了 Gemini、Veo、Nano Banana 和 Genie,并将其描述为“我们的新模型,可以根据任何输入创造任何东西”。
简单来说:输入照片、录音、现有视频、文字描述或任意组合,它就能生成视频。然后你可以继续跟它互动,完善它生成的视频。目前可用的第一个版本是: 双子座全能闪光灯功能更强大的 Gemini Omni Pro 正在开发中,将用于专业广告和视频制作。
Google将 Omni 定位为一个世界模型,而非标准的视频生成器——它旨在理解物理环境、预测因果关系,并同时处理文本、音频、图像和视频。与主要根据文本提示生成视频片段的 Sora、Runway 或 Veo 不同,Omni 的目标是更准确地模拟现实世界的行为。
物体下落时,它就会下落。 正确当两种材料碰撞时,相互作用反映了真实的物理现象——而不是训练视频中这些相互作用的模式匹配的近似值。
Google自己也坦诚地指出:更实质性的 Omni 更新“将于今年晚些时候推出”,这意味着目前发布的只是一个早期快速版本,而非通用人工智能(AGI)宣传中所暗示的完整世界模型。其物理学和世界理解能力将在后续版本中得到显著提升。
核心功能 双子座全向闪光灯。
大多数AI视频工具都接受文本提示。有些工具还接受同时输入参考图像。Gemini Omni可以同时接受以下所有信息,只需输入一条提示即可:
- 文本 — 描述、脚本、说明
- 图片 — 产品照片、人物参考、风格指南
- 声音的 — 录音、音乐、环境音
- 现有视频 — 可重新混音、扩展或转换的片段
该模型并非简单地拼接输入数据,而是综合分析所有数据生成一个统一的输出——然后通过对话接受进一步的修改。上传产品照片、粘贴品牌标语、录制描述氛围的语音留言,Omni 即可将这三者合成一个完整的视频。无需单独的处理步骤,也无需手动组装。

这是 Omni 最独特的功能。每条指令都“建立在前一条指令的基础上”,之前的指令会跨回合保留,因此视频会随着你的迭代而连贯发展。你无需使用传统的时间线和图层,只需指定要更改的内容:

这与重新提示视频生成器有着本质区别。Google自己的例子: “当人触摸镜子时,使镜子像液体一样泛起美丽的涟漪,而人的手臂则变成反光镜面材料。” — 场景特定的、物理感知的指导级别,在任何传统工具中都需要逐帧手动编辑。
哈萨比斯展示了 Omni 系统,并播放了一段黏土动画视频来解释蛋白质折叠——将复杂的科学原理转化为易于理解的视觉图像。该视频保持了物理上的连贯性:材料的行为如同黏土,运动遵循定格动画的逻辑,科学原理也得到了准确的呈现。这就是世界模型框架的实际应用:模型理解…… 为什么 事物会移动,不仅仅是 什么 类似的运动看起来与训练数据中的样子相似。

Google采取了谨慎的做法,确保生成的每个视频都包含…… SynthID 数字水印 为了确保真实性——所有输出都会自动且无声地进行验证。Google的工具可以检测到它,而且在 2026 年 I/O 大会之后,OpenAI、Kakao 和 Eleven Labs 等公司也将能够检测到,因为它们都采用了该标准。
- 10秒上限 — Google表示,这是推广策略上的决定,而不是型号上的限制。
- 无音频编辑 — 视频片段中的语音替换和音频修改内容会故意保留,等待审核。
- API尚未开放 — 截至 5 月 19 日,开发者/企业访问权限“将在未来几周内推出”。
- 地区和年龄限制 — 需要 18 岁以上,并且仅限 Gemini 应用运营的市场。
Gemini Omni 对比 Veo 3.1 — 有什么区别?
这是最常见的混淆来源。 Veo 是一个专用的视频生成模型,其推理能力有限。Omni 是一个具有推理能力的模型,它恰好也能生成视频。 — 它能够解读复杂的提示,进行跨回合编辑,并接受更丰富的输入类型。
| 双子座全能闪光灯 | 我看到3.1 | |
|---|---|---|
| 输入类型 | 文本 + 图片 + 音频 + 视频 | 文字+图片 |
| 对话式编辑 | ✓ 是的 | ✕ 否 |
| 物理/世界模拟 | ✓ 是的 | 部分的 |
| 最大剪辑长度 | 10秒(当前) | 约8秒 |
| API 访问 | 未来几周 | ✓ 现在 |
| 最适合 | 复杂、迭代的工作 | 高品质单代 |
| 免费访问 | YouTube Shorts | Gemini app(每天约 5-10 次) |
两者的关系是互补的,而非竞争的。就目前而言,Veo 3.1 仍然是单代数据质量最高、API 访问最可靠的选择。而对于迭代式、对话驱动型工作——尤其是需要结合多种输入类型的工作——Gemini Omni 则是 5 月 19 日之前尚不存在的工具。
Omni 与完整版 竞争激烈的领域。
Kling 3.0 Omni 支持多镜头序列,共享音频时间线,并提供五种语言的原生对话。对于使用原生音频的原始多镜头叙事,它在片段长度(最长 15 秒)和多场景连贯性方面更胜一筹。Omni 的优势在于对话的精细化处理和多模态输入深度。
Runway Gen-4.5 依然是专业级的摄影机控制标准,涵盖镜头方向、镜头行为和运动编排等各个方面。它是导演的得力助手。Omni 更像是一个创意协作工具:输入范围更广,迭代更自然,但对摄影机的精准控制略逊一筹。
Seedance 2.0凭借革命性的多镜头原生功能以及通过单一提示实现音视频同步,无疑是叙事驱动型内容制作的最佳选择。对于以故事为先、多镜头连贯性强的视频制作而言,它目前是最强大的。Omni与Google生态系统的原生集成以及对话式编辑功能赋予了它另一种——而非更低的——价值主张。
Sora 已不再具有可比性。OpenAI 已于 2026 年 4 月 26 日停止 Sora 网页和应用程序服务,Sora API 也将于 2026 年 9 月 24 日关闭。任何依赖 Sora 的流程都需要迁移。
| 全能闪光灯 | Kling 3.0 | 4.5号Runway | 种子舞 2.0 | 我看到3.1 | |
|---|---|---|---|---|---|
| 对话式编辑 | ✓ | ✕ | ✕ | ✕ | ✕ |
| 最大长度 | 10秒 | 15秒 | 10秒 | 15-20岁 | 约8秒 |
| 原生音频 | ✓ | ✓ | ✕ | ✓ | ✓ |
| 多重拍摄 | ✕ | ✓ | 部分的 | ✓ | ✕ |
| API 现在 | 很快 | ✓ | ✓ | ✓ | ✓ |
| 免费套餐 | YT Shorts | 每天 66 千万卢比 | 有限的 | ✕ | 双子座应用程序 |
如何访问 Gemini Omni 现在。
本周,Gemini Omni Flash 将在 YouTube Shorts 和 YouTube Create 上免费推出。Google正利用 YouTube 的分发渠道,以零边际成本将 Omni 推向数亿用户。打开 YouTube Shorts 或 Create 应用,找到 AI 视频创作选项——Omni Flash 就是其底层引擎。这是最快捷的体验方式,无需订阅。
| 计划 | 月度 | Gemini Omni Access |
|---|---|---|
| Google AI Plus | 7.99美元 | Gemini 应用 + Google Flow |
| Google AI Pro | 19.99美元 | 完全访问权限 + 更高限额 |
| Google AI Ultra | 100美元 | 优先访问 + 扩展配额 |
视频制作会消耗每日配额的很大一部分——请将您的会话安排用于迭代式创意工作,而不是批量制作。
未来几周,Google将通过 API 向开发者和企业推出 Omni Flash。具体日期尚未公布。开发者可以加入 Google AI Studio 的候补名单,并关注 Gemini API 的发布说明。
- 打开 Gemini 应用,并使用 Plus、Pro 或 Ultra 套餐登录。
- 在型号选择器中,选择 双子座全能闪光灯 (如果已在您所在地区推出)
- 上传参考资料——图片、音频片段或现有视频
- 写下你的第一个提示,描述要生成什么内容。
- 查看 10 秒输出
- 通过对话进行改进:“调整灯光”、“将镜头向左移动”
- 满意后可直接下载或分享到 YouTube。
现实世界 使用案例。
上传一张产品照片,描述其氛围,生成一个 10 秒的 Shorts 短片,包含动态效果和氛围——然后反复修改,直到它符合你频道的审美。
Omni正在被整合到 Asset Studio 用于在 Google Ads 技术栈中生成视频素材。根据产品图片和文案生成广告变体,然后在需求生成广告系列中进行测试。 没有进行拍摄制作。
人工智能生成的解释性视频、视觉叙事、新闻摘要。蛋白质折叠黏土动画演示正是如此——将复杂的概念转化为精准的视觉解释。 缺乏动画制作专业知识。
根据镜头列表生成粗略的动画分镜,然后通过沟通完善镜头角度、灯光和动作—— 将数天的前期可视化工作压缩到几个小时内完成。
“使用随附的产品照片,制作一张主打照片:产品在大理石底座上360°旋转,蒸汽升腾,摄影棚灯光,配以柔和的爵士乐。” 一张静态图片即可变成循环播放的视频素材,适用于网站或社交媒体。
为什么这很重要 超越视频。
更大的转变在于,人工智能视频正从一次性生成转向 对话式创作。 这不仅仅是用户体验的改进——它从根本上改变了视频制作的参与者。过去,技术技能是视频制作的障碍:时间轴、关键帧、调色、音频混音等等。Omni 用自然语言取代了这些学习曲线。你只需描述你的需求,描述问题所在,描述下一步该怎么做。模型会自动处理技术层面的转换。
使生成的镜子在被触摸时产生正确涟漪的那种世界建模能力,在更深层次上是: 人工智能在物理环境中运行所需的能力 — 机器人技术、仿真、科学建模。
哈萨比斯将 Omni 描述为迈向通用人工智能 (AGI) 的一步,并强调真正的进步在于理解物理世界,而不仅仅是生成逼真的视觉效果。就目前而言,其实际意义更为明确:一个能够接受任何媒体类型、生成连贯视频并允许用户通过对话进行优化的模型,这的确是全新的。它并非渐进式改进,而是截然不同的全新技术。
常见问题 问题。
Gemini Omni是什么?
Gemini Omni是免费的吗?
Gemini Omni 与 Veo 有何不同?
视频最长可以有多长?
API何时可用?
它接受哪些输入?
是否提供音频编辑功能?
Gemini Omni 并不是目前市面上最好的视频生成器。它引入的是…… 这是其他工具都无法提供的功能。
在原始单代视频质量方面,Kling 3.0 和 Veo 3.1 能够生成更流畅、时长更长的视频片段,并且 API 接口已开放。在多镜头叙事连贯性方面,Seedance 2.0 更胜一筹。在摄像机控制精度方面,Runway Gen-4.5 仍然是专业标准。
Omni 引入了一种如同对话般的视频创作流程。你可以输入任何内容——文字、照片、音频、视频素材——它都会生成一个视频,你可以告诉它需要修改的地方,然后不断调整直到满意为止。无需从头开始重新输入,无需时间线编辑,你的创意意图和最终输出之间没有任何技术障碍。这就是变革所在。它并非一个更强大的生成器,而是一种全新的创作方式。
通过以下方式访问 Gemini Omni 以及所有视频 API 一个平台。
当 Omni API 开放时,您可以选择:管理单独的 Google Cloud 结算帐户、密钥和配额,以及 Kling、Runway、Seedance 和 Veo 集成,或者通过一个网关访问所有这些集成。
ai.cc 是一个统一的AI API平台,为开发者和内容团队提供统一的界面、统一的控制面板和统一的账单,涵盖所有主流模型——包括Gemini Omni Flash、Veo 3.1、Seedance 2.0、GPT Image 2.0、Suno等等。Omni的企业级API发布后,即可通过ai.cc立即使用,无需额外注册账户。
立即访问 www.ai.cc 开始体验 →

登录