

在
出去


Text to Speech
const main = async () => {
const response = await fetch('https://api.ai.cc/v2/generate/video/alibaba/generation', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'wan/v2.1/1.3b/text-to-video',
prompt: 'A DJ on the stand is playing, around a World War II battlefield, lots of explosions, thousands of dancing soldiers, between tanks shooting, barbed wire fences, lots of smoke and fire, black and white old video: hyper realistic, photorealistic, photography, super detailed, very sharp, on a very white background',
aspect_ratio: '16:9',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/generate/video/alibaba/generation"
payload = {
"model": "wan/v2.1/1.3b/text-to-video",
"prompt": "A DJ on the stand is playing, around a World War II battlefield, lots of explosions, thousands of dancing soldiers, between tanks shooting, barbed wire fences, lots of smoke and fire, black and white old video: hyper realistic, photorealistic, photography, super detailed, very sharp, on a very white background",
"aspect_ratio": "16:9",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

产品详情
💡概述:
他们 2.1由阿里巴巴旗下Wan AI团队开发的,是一款专为高级生成视频任务而设计的尖端视频基础模型。它支持文本转视频(T2V)功能,并融合了多项突破性创新,能够以卓越的计算效率提供高质量的输出。
✨主要特点:
- 可视化文本生成: 在视频中生成中文和英文文本。
- 3D变分自编码器(Wan-VAE): 能够以时间精度对无限长度的 1080P 视频进行编码和解码。
- 高质量输出: 能够制作视觉效果动态且时间上一致的视频,分辨率最高可达 720P。
🎯预期用途:
Wan 2.1 专为以下应用而设计:
- 创意产业: 视频制作。
- 内容生成: 用于社交媒体和营销活动。
- 自动化工作流程: 涉及多媒体处理。
🌍语言支持:
该模型支持多语言文本生成,包括 中国人 和 英语。
⚙️技术细节:
🏗️建筑学:
Wan 2.1 基于扩散变换器架构,并具有多项创新功能:
- 3D变分自编码器(Wan-VAE): 增强时空压缩,并确保视频生成过程中的时间因果关系。
- 视频扩散 DiT 框架: 使用流匹配和 T5 编码器进行文本编码,并在 Transformer 模块中嵌入交叉注意力层。
🚀绩效指标:
Wan 2.1 取得了令人印象深刻的成就 VBench 得分 84.7%它擅长处理动态场景、空间一致性和美学效果。凭借其先进的时空注意力机制,它可以生成 30 帧/秒的 1080p 视频,并呈现逼真的运动效果。作为领先的开源视频生成模型,它足以与 Sora 等专有软件相媲美,尽管在某些方面,后者可能更胜一筹。
💻用法:
代码示例:
该模型可在以下平台获取: AI/ML API 平台作为 “他们 2.1”。
参数:
- 负面提示 [str]: 要使用的否定提示。用它来说明你不希望出现在视频中的细节(例如,模糊、低分辨率)。
- 种子 [int]:用于保证结果可复现的随机种子。如果为 None,则会选择一个随机种子。
- 宽高比 [9:16, 16:9]: 生成视频的宽高比。
- 推理步骤 [int]:采样推理步骤数。数值越高,推理质量越好,但耗时越长。
- 指导规模 [数字]:无分类指导量表。控制提示依从性/创造力。
- 转移 [数值]:噪声调度偏移参数。影响时间动态特性。
- 采样器 ['unipc', 'dpm+']: 用于生成的采样器。
- 启用安全检查器 [布尔值]:如果设置为 true,则启用安全检查器。
- 启用提示扩展 [boolean]:是否启用提示符扩展。
获取生成的视频:
API文档:
详细的 API 文档 可在此处获取。
✅道德准则:
阿里巴巴强调负责任地使用 WAN 2.1 进行合乎道德的内容创作,同时不鼓励滥用,例如生成深度伪造内容或创作不当内容。
📜许可:
Wan 2.1 已获得许可。 Apache 2.0允许商业用途和研究用途,条款透明。
获取 Wan 2.1 API 这里!
❓常见问题解答 (FAQ):
- 问题1:什么是WAN 2.1?
- Wan 2.1 是阿里巴巴 Wan AI 团队开发的高级视频基础模型,专门用于生成视频任务,例如文本转视频 (T2V),具有高质量的输出和计算效率。
- Q2:WAN 2.1 支持哪些视频生成分辨率?
- 该模型能够生成视觉动态且时间一致的视频,分辨率最高可达 720P,同时内部以 30 FPS 生成 1080p 视频,以实现逼真的运动效果。
- Q3:WAN 2.1 能否在视频中生成文本?如果可以,支持哪些语言?
- 是的,Wan 2.1 具有可视化文本生成功能,支持在生成的视频中嵌入中文和英文文本。
- Q4:WAN 2.1 的许可模式是什么?
- Wan 2.1 采用 Apache 2.0 许可,允许在透明的条款下进行商业和研究用途。
- Q5:WAN 2.1 与其他视频生成模型相比如何?
- Wan 2.1 取得了令人瞩目的 84.7% VBench 得分,被认为是领先的开源模型。它足以媲美 Sora 等专有软件,尽管具体性能会因测试指标的不同而有所差异。



登录