



const main = async () => {
const response = await fetch('https://api.ai.cc/v2/generate/video/kling/generation', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'kling-video/v2.1/standard/image-to-video',
prompt: 'Mona Lisa puts on glasses with her hands.',
image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
duration: '5',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/generate/video/kling/generation"
payload = {
"model": "kling-video/v2.1/standard/image-to-video",
"prompt": "Mona Lisa puts on glasses with her hands.",
"image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
"duration": "5",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()
- API 操练场(Playground)

在集成之前,请在沙箱环境中测试所有 API 模型。
我们提供 300 多种模型供您集成到您的应用程序中。


产品详情
这 Kling V2.1 标准图像转视频 该生成模型标志着多模态人工智能能力的重大飞跃,提供了强大而灵活的视频合成功能。它能够将静态图像输入(可选择由文本提示引导)转换为动态视频内容。此次迭代着重提升了稳定性、帧质量和时间一致性,同时保持了用户友好的易用性和高效的计算性能。
✨ 技术规格
- • 视频生成质量: 采用先进的时空卷积变换器和新型运动推理模块,从单个或多个关键帧图像生成平滑、一致且伪影最小化的视频序列。
- • 分辨率和帧速率: 支持最高输出分辨率 1080p 全高清 稳定 24帧/秒针对视觉保真度和高效渲染之间的平衡进行了优化,适用于实时应用和批量生成。
- • 提示与图像集成: 它采用复杂的跨模态融合架构,将详细的图像特征提取与自然语言提示协同结合起来,从而实现细致的场景演变和风格修改。
- • 摄像机和运动特效: 包含基础摄像机运动合成,包括平移、慢速缩放和微妙的视差效果,以增强沉浸感和动态叙事,同时确保视觉一致性和自然过渡。
📚 训练数据
该模型基于一个扩展的、多样化的多媒体语料库进行训练,该语料库包含跨多个领域的图像-视频配对数据集,包括电影片段、自然场景、城市环境和动态艺术作品。该数据集具有丰富的标注和多语言描述性字幕,从而增强了模型在不同风格、运动和文化背景下的泛化能力。
📈 绩效指标
Kling V2.1 实现了高保真度/延迟比,能够以极具竞争力的推理速度提供流畅的视频输出,并将时间伪影降至最低。它支持批量处理和提示引导的可变长度视频生成,从而可以对运动幅度和风格一致性进行精细控制。
💲 API定价
视频生成费用起价为每秒 0.0588 美元。
💡 主要特点
- ✅ 直接图像转视频: 将单张图像或一组图像转换为流畅连贯的视频序列,保留基本视觉元素,同时引入与场景语义一致的合理运动。
- ✅ 多模态提示条件反射: 使用户能够通过可选的文本提示来控制视频的动态和美学,从而增强创作灵活性和叙事深度。
- ✅ 增强时间一致性: 采用了新颖的时间正则化技术,显著减少了闪烁、抖动和运动不连续性,从而保持帧间流畅的视觉效果。
- ✅ 动态相机模拟: 实现了基本的摄像机运动,包括细微的缩放、平移和轻微的旋转偏移,增强了场景深度和电影感,同时又不牺牲性能。
- ✅ 风格和语境适应性: 接受过各种视觉类型的训练,包括自然景观、城市环境、动画风格和艺术渲染,从而能够进行多样化的创作输出。
- ✅ 多语言支持: 具备强大的英语、中文及其他语言提示理解和处理能力,满足全球用户需求和广泛的国际应用。
🚀 用例
- ➤ 利用现有视觉素材进行艺术性和创意性的视频制作。
- ➤ 视频增强和动态场景创建,打造引人入胜的营销内容。
- ➤ 社交媒体和数字故事讲述,将静态图像转化为引人入胜的动态影像。
- ➤ 初步概念可视化和快速多媒体原型制作。
- ➤ 应用于游戏、AR/VR内容生成和互动媒体体验。
- ➤ 为全球不同受众群体制作跨语言视频内容。
💻 代码示例
// Kling V2.1 图像转视频 API 集成示例 Python 代码片段 import kling_api # 使用您的身份验证密钥初始化 Kling API 客户端 client = kling_api.KlingClient(api_key="YOUR_API_KEY") # 定义您的输入图像和可选的文本提示 image_path = "path/to/your/input_image.jpg" text_prompt = "日出时分,雄鹰翱翔于雪山之上。" video_duration = 5 # 期望的视频时长(秒) try: with open(image_path, "rb") as image_file: # 调用图像转视频生成端点 response = client.generate_video( model="kling-video/v2.1/standard/image-to-video", image=image_file.read(), prompt=text_prompt, duration=video_duration ) if response.status == "success": print("视频生成成功!") print(f"生成的视频 URL:{response.video_url}") # 后续步骤:例如,下载视频或将其集成到您的应用程序中 else: print(f"视频生成失败:{response.error_message}") except FileNotFoundError: print(f"错误:在 {image_path} 未找到图像文件") except Exception as e: print(f"发生意外错误:{e}") 🆚 与其他型号的比较
与 Kling V2.0 标准 I2V 相比: Kling V2.1 带来了显著的升级,将输出分辨率从 720p 提升至 1080p它通过改进的运动推理模块增强了时间平滑度,并集成了更强大的跨模态融合机制,从而实现了更优异的图像-文本对齐和整体视频一致性。推理速度和API吞吐量均已优化,以降低延迟并提高并发性。
与 Kling V1.5 标准版 T2V 对比: V1.5 主要侧重于文本转视频 (T2V) 合成,而 V2.1 标准 I2V 则将范式转向 基于图像条件的视频生成 (I2V)。V2.1 主要通过视觉输入引导,并辅以文本提示,提供更丰富的场景动态效果,极大地扩展了其应用场景的多样性。尽管输入方式有所不同,V2.1 在时间连续性和分辨率方面也取得了显著改进。
❓ 常见问题解答 (FAQ)
Q1:Kling V2.1 相对于其前身 V2.0 的主要优势是什么?
Kling V2.1 提供了多项重大改进,包括 1080p 全高清输出分辨率 (分辨率从 720p 提升),时间平滑度增强,图像与文本对齐效果更佳,这得益于更强大的跨模态融合机制。此外,它还优化了推理速度和 API 吞吐量,从而提高了效率。
Q2:Kling V2.1 可以从多张图像生成视频,还是只能从单张图像生成视频?
Kling V2.1 功能多样,可以从单个静态图像或一组多个关键帧图像生成流畅、连贯的视频序列,并将它们整合到动态视觉叙事中。
Q3:文本提示如何增强视频生成过程?
可选的文本提示使用户能够精细地控制视频的动态、美感和整体叙事方向。这种多模态的互动方式有助于实现细致入微的场景演变和风格调整,而这些都深深植根于输入的图像和提供的文本上下文之中。
Q4:Kling V2.1 是否适用于需要实时视频生成的应用?
是的,该模型经过优化,在视觉保真度和渲染效率之间实现了平衡。凭借其极具竞争力的推理速度和极小的时序伪影,它非常适合实时应用、交互式媒体和批量视频生成。
Q5:Kling V2.1 支持哪些语言的文本提示?
Kling V2.1 提供强大的多语言支持。它可以有效地理解和处理以英语、中文以及其他多种语言提供的提示,从而满足多元化的国际用户群体的需求。



登录