在

出去

聊天

禁用

Kling V2.1 标准图像转视频

它兼顾了高分辨率输出、高效处理和动态相机模拟，适用于多种多媒体应用。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/generate/video/kling/generation', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'kling-video/v2.1/standard/image-to-video',
      prompt: 'Mona Lisa puts on glasses with her hands.',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
      duration: '5',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                        import requests


def main():
    url = "https://api.ai.cc/v2/generate/video/kling/generation"
    payload = {
        "model": "kling-video/v2.1/standard/image-to-video",
        "prompt": "Mona Lisa puts on glasses with her hands.",
        "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
        "duration": "5",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

Kling V2.1 标准图像转视频

产品详情

这 Kling V2.1 标准图像转视频 该生成模型标志着多模态人工智能能力的重大飞跃，提供了强大而灵活的视频合成功能。它能够将静态图像输入（可选择由文本提示引导）转换为动态视频内容。此次迭代着重提升了稳定性、帧质量和时间一致性，同时保持了用户友好的易用性和高效的计算性能。

✨ 技术规格

• 视频生成质量： 采用先进的时空卷积变换器和新型运动推理模块，从单个或多个关键帧图像生成平滑、一致且伪影最小化的视频序列。
• 分辨率和帧速率： 支持最高输出分辨率 1080p 全高清 稳定 24帧/秒针对视觉保真度和高效渲染之间的平衡进行了优化，适用于实时应用和批量生成。
• 提示与图像集成： 它采用复杂的跨模态融合架构，将详细的图像特征提取与自然语言提示协同结合起来，从而实现细致的场景演变和风格修改。
• 摄像机和运动特效： 包含基础摄像机运动合成，包括平移、慢速缩放和微妙的视差效果，以增强沉浸感和动态叙事，同时确保视觉一致性和自然过渡。

📚 训练数据

该模型基于一个扩展的、多样化的多媒体语料库进行训练，该语料库包含跨多个领域的图像-视频配对数据集，包括电影片段、自然场景、城市环境和动态艺术作品。该数据集具有丰富的标注和多语言描述性字幕，从而增强了模型在不同风格、运动和文化背景下的泛化能力。

📈 绩效指标

Kling V2.1 实现了高保真度/延迟比，能够以极具竞争力的推理速度提供流畅的视频输出，并将时间伪影降至最低。它支持批量处理和提示引导的可变长度视频生成，从而可以对运动幅度和风格一致性进行精细控制。

💲 API定价

视频生成费用起价为每秒 0.0588 美元。

💡 主要特点

✅ 直接图像转视频： 将单张图像或一组图像转换为流畅连贯的视频序列，保留基本视觉元素，同时引入与场景语义一致的合理运动。
✅ 多模态提示条件反射： 使用户能够通过可选的文本提示来控制视频的动态和美学，从而增强创作灵活性和叙事深度。
✅ 增强时间一致性： 采用了新颖的时间正则化技术，显著减少了闪烁、抖动和运动不连续性，从而保持帧间流畅的视觉效果。
✅ 动态相机模拟： 实现了基本的摄像机运动，包括细微的缩放、平移和轻微的旋转偏移，增强了场景深度和电影感，同时又不牺牲性能。
✅ 风格和语境适应性： 接受过各种视觉类型的训练，包括自然景观、城市环境、动画风格和艺术渲染，从而能够进行多样化的创作输出。
✅ 多语言支持： 具备强大的英语、中文及其他语言提示理解和处理能力，满足全球用户需求和广泛的国际应用。

🚀 用例

➤ 利用现有视觉素材进行艺术性和创意性的视频制作。
➤ 视频增强和动态场景创建，打造引人入胜的营销内容。
➤ 社交媒体和数字故事讲述，将静态图像转化为引人入胜的动态影像。
➤ 初步概念可视化和快速多媒体原型制作。
➤ 应用于游戏、AR/VR内容生成和互动媒体体验。
➤ 为全球不同受众群体制作跨语言视频内容。

💻 代码示例

 // Kling V2.1 图像转视频 API 集成示例 Python 代码片段 import kling_api # 使用您的身份验证密钥初始化 Kling API 客户端 client = kling_api.KlingClient(api_key="YOUR_API_KEY") # 定义您的输入图像和可选的文本提示 image_path = "path/to/your/input_image.jpg" text_prompt = "日出时分，雄鹰翱翔于雪山之上。" video_duration = 5 # 期望的视频时长（秒） try: with open(image_path, "rb") as image_file: # 调用图像转视频生成端点 response = client.generate_video( model="kling-video/v2.1/standard/image-to-video", image=image_file.read(), prompt=text_prompt, duration=video_duration ) if response.status == "success": print("视频生成成功！") print(f"生成的视频 URL：{response.video_url}") # 后续步骤：例如，下载视频或将其集成到您的应用程序中 else: print(f"视频生成失败：{response.error_message}") except FileNotFoundError: print(f"错误：在 {image_path} 未找到图像文件") except Exception as e: print(f"发生意外错误：{e}")

🆚 与其他型号的比较

与 Kling V2.0 标准 I2V 相比： Kling V2.1 带来了显著的升级，将输出分辨率从 720p 提升至 1080p它通过改进的运动推理模块增强了时间平滑度，并集成了更强大的跨模态融合机制，从而实现了更优异的图像-文本对齐和整体视频一致性。推理速度和API吞吐量均已优化，以降低延迟并提高并发性。

与 Kling V1.5 标准版 T2V 对比： V1.5 主要侧重于文本转视频 (T2V) 合成，而 V2.1 标准 I2V 则将范式转向 基于图像条件的视频生成 (I2V)。V2.1 主要通过视觉输入引导，并辅以文本提示，提供更丰富的场景动态效果，极大地扩展了其应用场景的多样性。尽管输入方式有所不同，V2.1 在时间连续性和分辨率方面也取得了显著改进。

❓ 常见问题解答 (FAQ)

Q1：Kling V2.1 相对于其前身 V2.0 的主要优势是什么？

Kling V2.1 提供了多项重大改进，包括 1080p 全高清输出分辨率 （分辨率从 720p 提升），时间平滑度增强，图像与文本对齐效果更佳，这得益于更强大的跨模态融合机制。此外，它还优化了推理速度和 API 吞吐量，从而提高了效率。

Q2：Kling V2.1 可以从多张图像生成视频，还是只能从单张图像生成视频？

Kling V2.1 功能多样，可以从单个静态图像或一组多个关键帧图像生成流畅、连贯的视频序列，并将它们整合到动态视觉叙事中。

Q3：文本提示如何增强视频生成过程？

可选的文本提示使用户能够精细地控制视频的动态、美感和整体叙事方向。这种多模态的互动方式有助于实现细致入微的场景演变和风格调整，而这些都深深植根于输入的图像和提供的文本上下文之中。

Q4：Kling V2.1 是否适用于需要实时视频生成的应用？

是的，该模型经过优化，在视觉保真度和渲染效率之间实现了平衡。凭借其极具竞争力的推理速度和极小的时序伪影，它非常适合实时应用、交互式媒体和批量视频生成。

Q5：Kling V2.1 支持哪些语言的文本提示？

Kling V2.1 提供强大的多语言支持。它可以有效地理解和处理以英语、中文以及其他多种语言提供的提示，从而满足多元化的国际用户群体的需求。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用