在

出去

聊天

禁用

Wan 2.5 图像转视频预览

它针对速度、价格和各种硬件配置的易用性进行了优化，使其成为寻求无缝图像到视频体验和丰富故事讲述潜力的创作者的首选。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/generate/video/alibaba/generation', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'alibaba/wan-25-preview/image-to-video',
      prompt: 'Mona Lisa puts on glasses with her hands.',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                        import requests


def main():
    url = "https://api.ai.cc/v2/generate/video/alibaba/generation"
    payload = {
        "model": "alibaba/wan-25-preview/image-to-video",
        "prompt": "Mona Lisa puts on glasses with her hands.",
        "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

Wan 2.5 图像转视频预览

产品详情

发现它们是2.5Wan 2.5 是阿里云的尖端人工智能模型，旨在革新视频创作方式。这款先进的图像转视频生成工具能够将静态图像无缝转换为动态、逼真的视频，并配有完全同步的音频。Wan 2.5 为内容创作者、广告商和电影制作人提供了高效且经济的解决方案，可用于制作具有电影级运动控制和更长时长的高质量视频内容。

它旨在通过复杂的镜头运动和原生音频集成来丰富故事叙述，为人工智能驱动的视频合成树立了新的标准。

⚙️ 技术规格

视频时长： 至多 10秒（性能优于许多竞争对手，成绩约为 8 秒）
帧率： 每秒 24 帧 (fps)
声音的： 实时同步的旁白、背景音乐和音效
模型架构： 集成视觉、音频和语言理解的多模态人工智能框架
兼容性： 可在多种GPU上高效运行，并优化了资源需求。

🚀 性能基准

世代速度： 速度提升 25% 比 Wan 2.2 基线
视频质量： 提升30% 视觉保真度和流畅度
语义合规性： 准确率提高 40%。在视频内容中反映输入提示
运动重建： 过渡效果提升 35% 以及逼真的动作
音视频同步： 高精度唇音同步和声音对齐
硬件效率： 提升20% 与之前的版本相比，GPU 资源利用率

✨ Wan 2.5 的主要特性

图像转视频： 将静态图像转换为动态视频，最高可达 10秒。
音视频同步： 原生支持集成语音旁白、音乐和音效唇形同步功能。
高级运动控制： 电影摄影机运动包括摇摄、倾斜、变焦、推拉和焦点切换。
多语言支持： 能够稳健地处理中文和其他语言的提示，以实现一致的视听对齐。
高效渲染： 针对更快的生成速度和更广泛的硬件兼容性进行了优化。

💰 API定价

480p： 每秒 0.0525 美元
720p： 每秒 0.105 美元
1080p： 每秒 0.1575 美元

💡 用例

社交媒体内容： 为帖子创建动态的视觉和听觉效果，使其更具吸引力。
市场营销与广告： 制作引人入胜的短视频和广告。
电影化叙事： 制作具有专业水准的短片或宣传视频。
教育动画： 制作配有同步画面的旁白解说教育内容。
视频增强： 应用风格迁移或利用人工智能功能增强现有素材。

👨‍💻 代码示例

📊 与其他领先型号的比较

Wan 2.5 对 Google Veo 3

它们是2.5 Veo 3 在原生同步音频方面表现出色，提供集成的旁白、音乐和唇形同步功能。虽然 Veo 3 注重逼真的环境音效，但有时可能会出现视听不匹配的情况。Wan 2.5 通常提供…… 更快、更经济高效视频生成体验。

Wan 2.5 对他们 2.2

与前代产品相比，它们是2.5 提供更佳的动态运动效果更流畅的过渡和更好的视觉保真度它还拥有增强的硬件兼容性和渲染速度，优化了 GPU 利用率并扩大了设备支持范围，从而实现了卓越的性能。

Wan 2.5 对 Kling 2.5 涡轮增压

它们是2.5 Kling 2.5 Turbo 的突出之处在于其更丰富的音视频同步功能，包括精准的唇音同步和全面的音效。虽然 Kling 2.5 Turbo 更注重符合物理规律的运动和自然的物体行为，但与 Wan 2.5 相比，其音频集成功能略显不足。

🔗 API集成

Wan 2.5 可通过 AI/ML API 轻松访问。有关详细的实现和使用方法，请参阅完整的文档。此处提供。

❓ 常见问题解答 (FAQ)

Q1：什么是 Wan 2.5？它的独特之处是什么？

A1：WAN 2.5 是阿里云先进的 AI 模型，可将静态图像转换为动态、逼真且音画同步的视频。其主要优势包括更长的视频时长（最长可达 10 秒）、实时音画同步（唇音同步）以及电影级运动控制，为高质量视频生成提供了一种经济高效的解决方案。

Q2：Wan 2.5 相较于之前的版本（例如 Wan 2.2）有哪些改进？

A2：WAN 2.5 相较于 WAN 2.2 有显著提升，包括生成速度提升 25%，视觉保真度和流畅度提升 30%，GPU 资源利用率提升 20%。它还具有更佳的动态效果、更流畅的过渡以及更广泛的硬件兼容性，使其在性能和效率方面更胜一筹。

Q3：WAN 2.5 为视频生成提供了哪些类型的创作控制？

A3：Wan 2.5 提供强大的创意控制功能，包括平移、倾斜、缩放、推拉和焦点切换等高级电影级镜头运动。这使用户能够创作引人入胜的叙事和动态的视觉效果，并能从单张图像中获得专业级的动画输出控制。

Q4：WAN 2.5 是否适合专业用途，其主要应用领域是什么？

A4：当然。Wan 2.5 专为专业人士设计，是社交媒体内容创作、营销视频、短广告、电影叙事和教育动画的理想之选。其高质量、高性价比和高效的渲染能力，使其成为各类内容创作者、广告商和电影制作人的强大工具。

Q5：WAN 2.5 如何处理音频集成？

A5：WAN 2.5 具备原生实时音视频同步功能，支持集成旁白、背景音乐和音效，并可实现高精度唇音同步。这确保了流畅沉浸的观看体验，使其在音频功能较弱的机型中脱颖而出。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用