



const main = async () => {
const response = await fetch('https://api.ai.cc/v2/generate/video/alibaba/generation', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'alibaba/wan-25-preview/text-to-video',
prompt: 'A DJ on the stand is playing, around a World War II battlefield, lots of explosions, thousands of dancing soldiers, between tanks shooting, barbed wire fences, lots of smoke and fire, black and white old video: hyper realistic, photorealistic, photography, super detailed, very sharp, on a very white background',
aspect_ratio: '16:9',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/generate/video/alibaba/generation"
payload = {
"model": "alibaba/wan-25-preview/text-to-video",
"prompt": "A DJ on the stand is playing, around a World War II battlefield, lots of explosions, thousands of dancing soldiers, between tanks shooting, barbed wire fences, lots of smoke and fire, black and white old video: hyper realistic, photorealistic, photography, super detailed, very sharp, on a very white background",
"aspect_ratio": "16:9",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

产品详情
它们是2.5 是一个 高级人工智能模型 它彻底革新了视频生成方式。它能生成 高质量、照片级逼真的视频 直接从文本提示生成视频,并配有同步音频。该模型标志着视频生成技术的重大飞跃,可提供 原生支持 4K精密的电影级控制,以及极其自然的动作合成。
Wan 2.5 专为追求专业级故事叙述和情感真实性的创作者而设计,它能满足他们的需求。 沉浸式、多分钟的视频片段体验流畅的动作和精准的视听同步,让您以无与伦比的真实感将您的创意愿景变为现实。
技术规格
- ✅ 帧速率: 通常为24帧/秒的电影标准。
- ✅ 视频时长: 可生成长达数分钟的视频,用于连续讲故事。
- ✅ 音频支持: 完全音频集成,允许输入原始声音并实现精确的唇音同步。
- ✅ 相机控制: 平移、倾斜、变焦、推拉和焦点切换,实现动态场景构图。
- ✅ 物理引擎: 先进的模拟技术,可实现逼真的运动和交互效果。
性能基准
- 🌟 视频质量: 能够制作出细节丰富、逼真度极高的视频,展现出丰富的环境和面部细节。
- 🌟 动作流畅度: 卓越的运动稳定性,无论大幅度运动还是细微运动,都能实现流畅过渡。
- 🌟 音视频同步: 实现视频与上传的语音或音效的快速同步,只需一次即可完成。 超越了Google Veo 3 等竞争对手。
- 🌟 多语言演出: 高精度唇音同步和语音匹配,支持跨语言和带口音的语音。
- 🌟 成本效益: 与市场上类似的高端机型相比,计算成本更低,更经济实惠。
API定价
- 480p: 0.0525美元/秒
- 720p: 每秒 0.105 美元
- 1080p: 0.1575美元/秒
主要特点
- 💡 文本转视频生成: 根据详细的文字描述创建视频。
- 💡 原生支持 4K 分辨率: 可制作高达 4K 分辨率的超高清视频。
- 💡 一次完成音频和视频同步: 将语音、音效和背景音乐自然地与视觉效果融合在一起。
- 💡 支持多种语言和口音: 支持多种语言,包括中文和各种口音,并具有可靠的唇音同步功能。
- 💡 高级电影级控制: 对摄像机运动(摇摄、倾斜、变焦、滑轨、焦点切换)和灯光设置进行精细控制。
- 💡逼真的角色和动作建模: 近乎照片般逼真的面部表情、细致入微的表情、自然的肢体语言和互动。
- 💡增强物理模拟: 逼真的环境互动和流畅的运动动力学。
用例
- 🎬 人工智能在电影制作和影视制作中的应用
- 🎬 广告和营销视频制作
- 🎬故事板和预可视化
- 🎬 社交媒体内容创作与音视频同步
- 🎬面向全球观众的多语言视频内容
- 🎬 以人物为中心的叙事视频,情感表达丰富
与其他型号的比较
对比 Google Veo 3: Wan 2.5 的突出之处在于 原生 4K 视频支持Wan 2.5 支持更长的视频片段和更出色的多语言音视频同步,包括中文。它还提供动态电影级镜头控制,相比 Veo 3 的 1080p 分辨率限制、更短的视频片段、以英语为中心的音频同步以及基本的固定镜头功能,这是一个显著的升级。此外,Wan 2.5 为创作者提供了一种更经济高效的解决方案,它支持完整的音频输入,而 Veo 3 仅支持系统生成的声音。
对比 第四代Runway: Wan 2.5 在以下方面表现出色 高效的实时音视频同步 它支持原生 4K 输出,提供增强的运动保真度和灵活的相机工作流程,而 Runway Gen-4 主要侧重于后期制作效果和浏览器内编辑功能,较少关注深度音频集成。
对阵 Pika Labs: Wan 2.5 生成 更长的连续叙事视频 它具备精细的电影级控制功能和全面的多语言语音同步功能。相比之下,Pika Labs 则专注于快速生成短视频,主要用于社交媒体格式,并且缺乏高级的相机或音频同步功能。
对比 Kling 2.5 涡轮增压: Wan 2.5 提供 卓越的照片级写实角色渲染 Kling 2.5 Turbo 能够实现多种语言的精准唇形同步,并支持多种视频尺寸输出。它针对高速生成和风格化动画效果进行了优化,但音视频集成能力稍逊一筹。
API集成
Wan 2.5 可通过 AI/ML API 轻松访问。完整的文档如下: 此处提供 适用于开发人员和集成商。
常见问题解答 (FAQ)
答:WAN 2.5 利用先进的 AI 模型生成 极其精细的环境和面部特征结合先进的物理引擎,实现逼真的运动和交互效果,达到接近照片级的真实效果。
A:它的特点 强大的单次音频和视频同步功能确保多种语言(包括中文)和各种口音的语音实现精确的唇形同步和语音匹配,准确率很高。
A:WAN 2.5 提供 高级电影控制 例如平移、倾斜、缩放、推拉和焦点切换,使创作者能够对摄像机运动和灯光设置进行精细控制,从而实现动态场景构图。
A:当然。 原生支持 4K、多分钟视频生成、逼真的角色建模和高级电影级控制Wan 2.5 非常适合专业电影制作、广告和高质量营销视频的制作。
A:WAN 2.5 的定位是 更经济实惠的选择 与目前市场上许多类似的高端视频生成模型相比,其计算成本更低,使得高级视频创作更加容易上手。



登录