在

出去

聊天

禁用

Veo 3.1 参考视频

原生音频可以自动创建并与视觉内容同步，从而提高输出的真实感和连贯性。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/video/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'google/veo-3.1-reference-to-video',
      prompt: 'A graceful ballerina dancing outside a circus tent on green grass, with colorful wildflowers swaying around her as she twirls and poses in the meadow.',
      image_urls: [
        'https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-1.png',
        'https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-2.png',
        'https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-3.png',
      ],
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                        import requests


def main():
    url = "https://api.ai.cc/v2/video/generations"
    payload = {
        "model": "google/veo-3.1-reference-to-video",
        "prompt": "A graceful ballerina dancing outside a circus tent on green grass, with colorful wildflowers swaying around her as she twirls and poses in the meadow.",
        "image_urls": [
            "https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-1.png",
            "https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-2.png",
            "https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-3.png"
        ]
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

Veo 3.1 参考视频

产品详情

Veo 3.1 参考视频简介

GoogleDeepMind的 Veo 3.1 参考视频 是一款先进的人工智能模型，为视频生成树立了新的标准。它赋予用户无与伦比的创作控制权，使用户能够通过参考图像来指导视频风格和场景构图。这项创新功能确保了艺术上的一致性和无缝融合场景元素。Veo 3.1 原生支持生成高保真 8 秒视频。 720p 或 1080p 分辨率并配有同步音频，带来完整的感官体验。

来源： Veo 3.1 - 视频的成分

技术规格及性能

✅ 核心规格

输入方式： 文本转视频、图像转视频（参考图像）、视频转视频
输出分辨率： 720p 和 1080p（16:9 宽高比）
视频时长： 使用参考图片时最长8秒（可延长叙述时间）
帧率： 24帧/秒，画面流畅
声音的： 原生生成并与视频内容完美同步

📈 性能基准测试

视觉效果丰富的视频：几分钟内即可生成具有逼真光照、复杂阴影和流畅运动的精美视频。
电影化且风格多样：擅长根据参考图像调整和保留各种电影和艺术风格，确保布局的连贯性。
稳定且不断发展：提供稳定的模型可用性，并持续改进和推出目前处于预览阶段的高级功能。

Veo 3.1 的主要特性

🖼️ 参考视频控制： 利用最多三张参考图片，精确地确定美学风格和复杂的场景布局。
🎵 原生音频生成： 自动生成高质量、同步的音乐或引人入胜的音效，与您的视频完美搭配。
💻 高清分辨率： 提供专业级的 720p 和 1080p 输出，非常适合各种应用。
⏱️ 短视频时长： 针对创建时长不超过 8 秒的精彩短片进行了优化，非常适合制作动态、简洁的内容。
⭐ 帧特定生成： 通过定义首帧和末帧，实现完全控制，从而生成精确的视频序列。
📏 视频扩展： 无缝扩展先前生成的视频，以讲述更长的故事或创建扩展叙事。

API定价

💰 每秒 0.21 美元 （音频关闭）
💰 每秒 0.42 美元 （音频已开启）

一款经济高效的高质量视频生成解决方案，可根据您的需求量身定制。

多种应用场景

🎦 电影与故事板： 根据文字提示和参考图像快速创建电影短片，非常适合预可视化。
📂 广告与营销： 高效且经济地制作引人入胜的产品宣传片和动态社交媒体视频。
📱 社交媒体内容： 利用独特的风格化视听效果，制作引人入胜的 Shorts、TikTok 和 Reels 视频，以达到最大影响力。
🎓 教育视频： 开发配有同步人工智能生成声音的动画教学辅助工具和教学内容。

重要注意事项

💭 最佳参考图像： 参考图片如果能清晰地展现所需的主题和艺术风格，就能取得最佳效果。
💭 利用多个参考文献： 使用多张参考图像可以增强模型理解和整合各种场景元素和复杂构图的能力。
💭 短篇内容优化： Veo 3.1 专门针对生成短小精悍的高质量视频片段进行了优化，因此非常适合制作简洁有力、引人注目的内容，而不是冗长的作品。

代码示例和 API 详情

有关 Veo 3.1 的完整 API 集成指南、代码示例和详细文档，请参阅官方 AI/ML API 文档：

访问 Veo 3.1 API 文档

（开发者可以在链接的文档中找到嵌入式代码片段和交互式示例。）

Veo 3.1 与其他领先型号的比较

📈 我看到了 3.1 对阵 Sora 2

Veo 3.1 的独特之处在于它超越了 Sora 2。视觉真实感、场景连贯性和至关重要的视听同步这使得 Veo 3.1 特别适合电影叙事和商业视频制作。虽然 Sora 2 以快速生成视频而著称，但 Veo 3.1 能够提供更长的视频时长、更出色的多场景过渡效果以及更高的专业品质。

📈 我看到的是 3.1 版本，而不是 3.0 版本。

Veo 3.1 相较于 Veo 3.0 有了显著的提升。它将视频长度从最多 12 秒扩展到了令人印象深刻的更长距离。 60秒并将分辨率从 720p 提升至清晰 1080p高清新增功能包括原生同步音频、高级多场景控制、嵌入式电影摄像机预设，以及大幅改进的角色和光照连续性，使其成为导演级别的叙事工具。

📈 Veo 3.1 对阵 Kling 2.1

Kling 2.1 提供强大的风格化视频生成功能，但通常输出的视频片段较短，场景构图也较为简单。Veo 3.1 的生成能力则更胜一筹。无缝衔接的1分钟视频，集成音频和电影特效对于需要制作精良叙事视频且视听效果流畅的项目而言，这无疑是一项优势。

📈 Veo 3.1 对阵 Wan 2.5

Wan 2.5 侧重于快速视频生成和基本的场景结构。然而，它缺乏 Veo 3.1 中具备的高级多镜头场景过渡和强大的音频生成功能。Veo 集成了电影级预设和精细的场景控制，因此更适合制作高度专业化、细节丰富的视频内容。

常见问题解答 (FAQ)

❓ 什么是 Veo 3.1 参考视频？

Veo 3.1 是Google DeepMind 开发的用于生成高保真视频的高级人工智能模型。它允许用户通过提供参考图像来控制视频风格和场景构图，从而确保艺术一致性和创作灵活性。

❓ 参考图像控件是如何工作的？

用户最多可以上传三张参考图片。模型会分析这些图片，捕捉所需的艺术风格、色彩搭配、光照和场景布局，并根据用户提供的文字提示，将这些视觉元素融入到生成的视频中。

❓ Veo 3.1 的主要输出规格是什么？

它可以生成时长不超过 8 秒的视频（支持延长时长），支持 720p 或 1080p 分辨率，宽高比为 16:9，帧速率为 24 帧/秒。其一大亮点是能够原生生成与视频内容完美同步的音频。

❓ Veo 3.1 相对于 Veo 3.0 有何改进？

Veo 3.1 提供了显著的改进，包括视频长度增加到 60 秒（从 12 秒增加到 60 秒），更高的 1080p 高清分辨率（从 720p 增加到 1080p），原生同步音频，多场景控制和高级电影摄像机预设，使其成为更全面的叙事工具。

❓ Veo 3.1 的主要应用有哪些？

Veo 3.1 非常适合各种应用，例如电影故事板制作、创建引人入胜的广告和营销内容、制作动态社交媒体视频（如 Shorts、TikTok 和 Reels）以及开发带有 AI 生成声音的动画教育材料。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用