qwen-bg
max-ico04
出去
max-ico02
聊天
max-ico03
禁用
康定斯基 5 蒸馏
该模型非常适合需要根据文本提示高效生成视频内容的开发人员、内容创作者和研究人员。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/video/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'sber-ai/kandinsky5-distill-t2v',
      prompt: 'A DJ on the stand is playing, around a World War II battlefield, lots of explosions, thousands of dancing soldiers, between tanks shooting, barbed wire fences, lots of smoke and fire, black and white old video: hyper realistic, photorealistic, photography, super detailed, very sharp, on a very white background',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                
                                        import requests


def main():
    url = "https://api.ai.cc/v2/video/generations"
    payload = {
        "model": "sber-ai/kandinsky5-distill-t2v",
        "prompt": "A DJ on the stand is playing, around a World War II battlefield, lots of explosions, thousands of dancing soldiers, between tanks shooting, barbed wire fences, lots of smoke and fire, black and white old video: hyper realistic, photorealistic, photography, super detailed, very sharp, on a very white background"
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
qwenmax-bg
图片
康定斯基 5 蒸馏

产品详情

Kandinsky 5 Distill API:轻量级且速度极快的文本转视频

Kandinsky 5 Distill 是功能强大的 Kandinsky 5 文本转视频扩散模型的先进优化版本。它旨在实现无与伦比的速度和效率,显著提升了视频处理能力。 加速视频生成 在不牺牲艺术品质的前提下,它能完美胜任快速原型制作、创意探索以及生成需要快速预览和迭代工作流程的影响力内容等任务。体验高速的高质量视频输出,让您的创作过程更加敏捷高效。

⚙️ 技术规格

  • 型号: 采用扩散变换器(DiT)架构的潜在扩散模型。
  • 文本嵌入: 利用 Qwen2.5-VL 和 CLIP 进行强大的语义条件反射,确保您的提示能够被深刻理解。
  • 视频编码: 利用混源视频3D变分自编码器(VAE)将视频高效压缩到潜在空间。
  • 优化: 蒸馏过程显著 降低计算开销从而显著加快推理速度。
  • 输入: 接受直观的自然语言文本提示。
  • 输出: 生成高质量视频,时长可自定义,通常为 5 到 10 秒。

性能基准

  • 推理速度: 达到 大幅加速 与原版 Kandinsky 5 相比,它非常适合实时预览和交互式应用程序。
  • 质量: 保持较高的感知质量,在生成的视频帧中呈现精细的细节和连贯的时间进程。
  • 资源效率: 它拥有更低的GPU内存消耗,因此可以在主流GPU上用于快速便捷的视频生成任务。

主要特点

  • 速度优化型发电: 从零开始设计,旨在实现更快的视频合成,同时保持较高的保真度。
  • 高质量输出: 保留了与完整的康定斯基 5 型号相当的视觉和语义丰富性,确保了惊艳的效果。
  • 方便使用的: 支持自然语言输入,可实现快速迭代并无缝集成到创意工作流程中。
  • 对开源软件友好: 基于开放式扩散架构,促进研究、定制和社区贡献。
  • 内置文本条件反射: 具有深度交叉注意力机制,可确保文本提示对生成的视频内容产生强大而准确的影响。

💰 康定斯基 5 蒸馏 API 定价

以实惠的价格体验尖端的文本转视频生成技术: 每秒 0.105 美元 生成的视频。

💡 多种应用场景

  • 快速原型制作: 以空前的速度快速可视化故事板、概念想法和设计草图。
  • 内容预览: 快速生成社交媒体宣传活动、广告视觉效果或音乐视频片段的草稿。
  • 创意沙盒: 自由尝试各种艺术风格和先进的提示工程技术,以开辟新的创作途径。
  • 教育演示: 在实时或近实时环境中展示文本转视频人工智能的动态功能,用于教育或演示目的。
  • 应用集成: 为需要即时视频生成反馈和快速视觉内容创建的应用程序提供无缝功能。

💻 生成代码示例

以下是如何使用 Kandinsky 5 Distill API 进行视频生成的示例:

 import requests API_URL = "YOUR_API_ENDPOINT/sber-ai/kandinsky5-distill-t2v" # 替换为实际的端点 headers = {"Authorization": "Bearer YOUR_API_KEY"} # 替换为您的实际 API 密钥 payload = { "prompt": "日落时分的未来城市,飞车,霓虹灯,高度精细,电影感", "duration": 7, # 生成一个 7 秒的视频 "resolution": "512x512" # 指定视频分辨率 } response = requests.post(API_URL, headers=headers, json=payload) response.raise_for_status() # 针对 HTTP 错误引发异常 video_generation_id = response.json()["id"] print(f"视频生成已启动,ID:{video_generation_id}") 

🎬 输出代码示例

生成完成后,您可以使用以下代码获取输出(例如,视频 URL):

 import requests import time API_URL_FETCH = "YOUR_API_ENDPOINT/video_generations/{video_generation_id}" # 替换为实际的端点 headers = {"Authorization": "Bearer YOUR_API_KEY"} # 假设 video_generation_id 是从上面的生成示例中获得的 # 为了演示,如果不是,我们使用占位符 # video_generation_id = "your_actual_generation_id_here" status = "pending" while status == "pending": response = requests.get(API_URL_FETCH.format(video_generation_id=video_generation_id), headers=headers) response.raise_for_status() result = response.json() status = result.get("status") if status == "completed": video_url = result.get("output_url") print(f"视频生成成功:{video_url}") elif status == "failed": print(f"视频生成失败:{result.get('error')}") break else: print(f"视频状态:{status}。等待中...") time.sleep(10) # 等待 10 秒后再检查 

⚖️ 与其他型号的比较

了解 Kandinsky 5 Distill 在文本转视频领域的独特地位:

  • 与康定斯基 5 标准版: Distill 提供 生成速度显著加快这使其在快速迭代和预览方面表现更佳。虽然原版 Kandinsky 5 在处理高度复杂的图像时可能提供更细致的层次感,但 Distill 在绝大多数实际应用中仍能保持卓越的品质。
  • 与稳定扩散视频模型相比: Kandinsky 5 Distill 提供专业的文本转视频功能,采用优化的基于 Transformer 的架构,经常生成以下类型的视频: 语义更准确,时间更连贯稳定扩散变体通常用途更广泛,但速度可能较慢,或者在视频输出中表现出较差的时间一致性。
  • 对比图像视频: 康定斯基 5 提炼优先次序 速度和便捷性Imagen Video 基于开放架构构建。相比之下,Imagen Video 是一种专有模型,专注于超高质量,通常计算成本更高,访问权限也更有限。

🔗 API集成

Kandinsky 5 Distill API 可通过 AI/ML API 轻松访问。完整的集成文档如下: 此处提供

常见问题解答 (FAQ)

  • 问:什么是康定斯基五重蒸馏法?它的主要功效是什么?

    答:Kandinsky 5 Distill 是一款优化的轻量级文本转视频扩散模型。它的主要优势在于能够显著提高视频生成速度,同时保持高视觉质量,非常适合快速原型制作和迭代式创意工作流程。

  • 问:Kandinsky 5 Distill 在速度和质量方面与原版 Kandinsky 5 相比如何?

    答:与原版相比,Distill 在实时预览方面实现了显著的速度提升,速度更快。它保持了较高的感知质量和精细的细节,适用于大多数实际应用,不过在极其复杂的场景下,完整版可能会提供更丰富的细节表现。

  • 问:Kandinsky 5 Distill 的典型应用场景有哪些?

    答:它非常适合快速原型制作(故事板、概念)、内容预览(社交媒体、广告)、创意沙盒、教育演示,以及集成到需要快速视频生成反馈的应用程序中。

  • 问:Kandinsky 5 Distill API 的输入和输出类型是什么?

    答:该 API 以自然语言文本提示作为输入,并输出高质量、可自定义长度(例如 5-10 秒)的视频。

  • 问:Kandinsky 5 Distill 是否资源利用效率高?

    答:是的,它具有很高的资源效率,GPU 内存消耗较低,因此可以在主流 GPU 上用于快速视频生成任务。

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用