qwen-bg
max-ico04
出去
max-ico02
聊天
max-ico03
禁用
Kling V2.1 标准图像转视频
它兼顾了高分辨率输出、高效处理和动态相机模拟,适用于多种多媒体应用。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/generate/video/kling/generation', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'kling-video/v2.1/standard/image-to-video',
      prompt: 'Mona Lisa puts on glasses with her hands.',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
      duration: '5',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                
                                        import requests


def main():
    url = "https://api.ai.cc/v2/generate/video/kling/generation"
    payload = {
        "model": "kling-video/v2.1/standard/image-to-video",
        "prompt": "Mona Lisa puts on glasses with her hands.",
        "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
        "duration": "5",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
  • ico01-1
    API 操练场(Playground)

    在集成之前,请在沙箱环境中测试所有 API 模型。

    我们提供 300 多种模型供您集成到您的应用程序中。

    复制图片02图片01
qwenmax-bg
图片
Kling V2.1 标准图像转视频

产品详情

Kling V2.1 标准图像转视频 该生成模型标志着多模态人工智能能力的重大飞跃,提供了强大而灵活的视频合成功能。它能够将静态图像输入(可选择由文本提示引导)转换为动态视频内容。此次迭代着重提升了稳定性、帧质量和时间一致性,同时保持了用户友好的易用性和高效的计算性能。

技术规格

  • 视频生成质量: 采用先进的时空卷积变换器和新型运动推理模块,从单个或多个关键帧图像生成平滑、一致且伪影最小化的视频序列。
  • 分辨率和帧速率: 支持最高输出分辨率 1080p 全高清 稳定 24帧/秒针对视觉保真度和高效渲染之间的平衡进行了优化,适用于实时应用和批量生成。
  • 提示与图像集成: 它采用复杂的跨模态融合架构,将详细的图像特征提取与自然语言提示协同结合起来,从而实现细致的场景演变和风格修改。
  • 摄像机和运动特效: 包含基础摄像机运动合成,包括平移、慢速缩放和微妙的视差效果,以增强沉浸感和动态叙事,同时确保视觉一致性和自然过渡。
Kling V2.1 图像转视频生成示例

📚 训练数据

该模型基于一个扩展的、多样化的多媒体语料库进行训练,该语料库包含跨多个领域的图像-视频配对数据集,包括电影片段、自然场景、城市环境和动态艺术作品。该数据集具有丰富的标注和多语言描述性字幕,从而增强了模型在不同风格、运动和文化背景下的泛化能力。

📈 绩效指标

Kling V2.1 实现了高保真度/延迟比,能够以极具竞争力的推理速度提供流畅的视频输出,并将时间伪影降至最低。它支持批量处理和提示引导的可变长度视频生成,从而可以对运动幅度和风格一致性进行精细控制。

💲 API定价

视频生成费用起价为每秒 0.0588 美元。

💡 主要特点

  • 直接图像转视频: 将单张图像或一组图像转换为流畅连贯的视频序列,保留基本视觉元素,同时引入与场景语义一致的合理运动。
  • 多模态提示条件反射: 使用户能够通过可选的文本提示来控制视频的动态和美学,从而增强创作灵活性和叙事深度。
  • 增强时间一致性: 采用了新颖的时间正则化技术,显著减少了闪烁、抖动和运动不连续性,从而保持帧间流畅的视觉效果。
  • 动态相机模拟: 实现了基本的摄像机运动,包括细微的缩放、平移和轻微的旋转偏移,增强了场景深度和电影感,同时又不牺牲性能。
  • 风格和语境适应性: 接受过各种视觉类型的训练,包括自然景观、城市环境、动画风格和艺术渲染,从而能够进行多样化的创作输出。
  • 多语言支持: 具备强大的英语、中文及其他语言提示理解和处理能力,满足全球用户需求和广泛的国际应用。

🚀 用例

  • 利用现有视觉素材进行艺术性和创意性的视频制作。
  • 视频增强和动态场景创建,打造引人入胜的营销内容。
  • 社交媒体和数字故事讲述,将静态图像转化为引人入胜的动态影像。
  • 初步概念可视化和快速多媒体原型制作。
  • 应用于游戏、AR/VR内容生成和互动媒体体验。
  • 为全球不同受众群体制作跨语言视频内容。

💻 代码示例

 // Kling V2.1 图像转视频 API 集成示例 Python 代码片段 import kling_api # 使用您的身份验证密钥初始化 Kling API 客户端 client = kling_api.KlingClient(api_key="YOUR_API_KEY") # 定义您的输入图像和可选的文本提示 image_path = "path/to/your/input_image.jpg" text_prompt = "日出时分,雄鹰翱翔于雪山之上。" video_duration = 5 # 期望的视频时长(秒) try: with open(image_path, "rb") as image_file: # 调用图像转视频生成端点 response = client.generate_video( model="kling-video/v2.1/standard/image-to-video", image=image_file.read(), prompt=text_prompt, duration=video_duration ) if response.status == "success": print("视频生成成功!") print(f"生成的视频 URL:{response.video_url}") # 后续步骤:例如,下载视频或将其集成到您的应用程序中 else: print(f"视频生成失败:{response.error_message}") except FileNotFoundError: print(f"错误:在 {image_path} 未找到图像文件") except Exception as e: print(f"发生意外错误:{e}") 

🆚 与其他型号的比较

与 Kling V2.0 标准 I2V 相比: Kling V2.1 带来了显著的升级,将输出分辨率从 720p 提升至 1080p它通过改进的运动推理模块增强了时间平滑度,并集成了更强大的跨模态融合机制,从而实现了更优异的图像-文本对齐和整体视频一致性。推理速度和API吞吐量均已优化,以降低延迟并提高并发性。

与 Kling V1.5 标准版 T2V 对比: V1.5 主要侧重于文本转视频 (T2V) 合成,而 V2.1 标准 I2V 则将范式转向 基于图像条件的视频生成 (I2V)。V2.1 主要通过视觉输入引导,并辅以文本提示,提供更丰富的场景动态效果,极大地扩展了其应用场景的多样性。尽管输入方式有所不同,V2.1 在时间连续性和分辨率方面也取得了显著改进。

常见问题解答 (FAQ)

Q1:Kling V2.1 相对于其前身 V2.0 的主要优势是什么?

Kling V2.1 提供了多项重大改进,包括 1080p 全高清输出分辨率 (分辨率从 720p 提升),时间平滑度增强,图像与文本对齐效果更佳,这得益于更强大的跨模态融合机制。此外,它还优化了推理速度和 API 吞吐量,从而提高了效率。

Q2:Kling V2.1 可以从多张图像生成视频,还是只能从单张图像生成视频?

Kling V2.1 功能多样,可以从单个静态图像或一组多个关键帧图像生成流畅、连贯的视频序列,并将它们整合到动态视觉叙事中。

Q3:文本提示如何增强视频生成过程?

可选的文本提示使用户能够精细地控制视频的动态、美感和整体叙事方向。这种多模态的互动方式有助于实现细致入微的场景演变和风格调整,而这些都深深植根于输入的图像和提供的文本上下文之中。

Q4:Kling V2.1 是否适用于需要实时视频生成的应用?

是的,该模型经过优化,在视觉保真度和渲染效率之间实现了平衡。凭借其极具竞争力的推理速度和极小的时序伪影,它非常适合实时应用、交互式媒体和批量视频生成。

Q5:Kling V2.1 支持哪些语言的文本提示?

Kling V2.1 提供强大的多语言支持。它可以有效地理解和处理以英语、中文以及其他多种语言提供的提示,从而满足多元化的国际用户群体的需求。

了解如何利用 AICC API 实现公司转型

探索如何利用 AICC API 革新您的业务!解锁强大的工具,实现流程自动化、增强决策能力并打造个性化的客户体验。
联系销售
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用