

在
出去


Text to Speech
const main = async () => {
const response = await fetch('https://api.ai.cc/v2/video/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'google/veo-3.1-i2v',
prompt: 'A jellyfish in the ocean',
image_url: 'https://upload.wikimedia.org/wikipedia/commons/3/35/Maldivesfish2.jpg',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/video/generations"
payload = {
"model": "google/veo-3.1-i2v",
"prompt": "A jellyfish in the ocean",
"image_url": "https://upload.wikimedia.org/wikipedia/commons/3/35/Maldivesfish2.jpg",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

产品详情
💡 Veo 3.1:将图像转化为电影级视频
由GoogleDeepMind开发的Veo 3.1是一款先进的视频生成模型,旨在将静态图像转换为流畅的电影级视频序列。它擅长创建自然的运动、逼真的光照和与上下文相关的配乐,使其在各种多媒体应用中都具有极高的通用性。
🔧 技术规格
-
输入类型:单张静态图像
-
输出长度:最长 8 秒视频
-
最高分辨率: 720p
-
支持的格式:横向 (16:9) 和纵向 (9:16)
-
音频:集成原生上下文音频生成功能
性能基准
-
视频长度:可稳定生成长达 8 秒的视频片段,且质量损失不明显。
-
分辨率质量:在保持清晰画面的同时,最高可达 720p,并具有自然光照效果。
-
运动真实感:高度保真度的摄像机运动和物体动画,模拟真实世界的物理效果。
-
音频同步:音轨和音效与视觉事件和上下文紧密同步。
⭐ 主要特点
-
电影动画:添加平移、倾斜、缩放和推拉等镜头运动效果,以创造深度和立体感。
-
帧插值:支持单帧动画和不同图像之间的平滑过渡。
-
上下文音频生成:自动生成与屏幕上的动作相符的配乐和音效。
-
上下文理解:解读视觉内容和文本提示,以引导场景流程和氛围。
💰 Veo 3.1 API 定价
-
每秒 0.21 美元(音频关闭)
-
每秒 0.42 美元(音频开启)
📊 应用案例
-
营销内容创作:利用静态图片生成引人入胜的短宣传视频。
-
社交媒体故事:制作针对 Instagram 和 TikTok 等平台优化的竖屏视频。
-
电影级故事板:使用起始帧和结束帧以及平滑插值来可视化复杂场景。
-
多媒体演示:利用动态画面和音频增强静态图像,打造更具冲击力的演示效果。
-
创意表达:在视频内容中插入新的角色或物体,以达到讲故事或艺术创作的目的。
💻 代码示例
// Example API call for Veo 3.1 Image-to-Video generation POST /v1/video/generate // Request Body { "model" : "google/veo-3.1-i2v" , "image_url" : "https://example.com/static-image.jpg" , "prompt" : "A serene landscape with gentle camera pan and a bird flying in the distance." , "duration_seconds" : 5 , "audio_enabled" : true , "resolution" : "720p" }
📈 与其他型号的比较
- 对比图像视频: Veo 3.1 专门用于将静态图像转换为带有原生音频的视频。Imagen Video 主要专注于文本转视频合成,不包含集成音频设计。
- 对比 Runway Gen-4: Veo 3.1 提供强大的情境音频和电影级镜头效果。Runway Gen-4 侧重于高分辨率视频生成,但通常需要外部音频处理。
- 对比 Meta Make-A-Video: Veo 3.1 支持生成后进行精细的对象插入,并支持多种宽高比。Make-A-Video 提供更广泛的文本转视频功能,但缺少集成音频。
🔗 API 集成
通过 AI/ML API 访问 Veo 3.1。有关完整文档,请参阅…… Veo 3.1 图像转视频 API 文档。
❓ 常见问题解答 (FAQ)
问:Veo 3.1 图像转视频 AI 模型是什么?
答:Veo 3.1 图像转视频是一个先进的 AI 模型,它通过生成连贯的运动、摄像机运动和场景演变,将静态图像转换为动态动画视频,同时保持原始图像的视觉质量和构图。
问:Veo 3.1 的主要特点是什么?
答:主要功能包括具有各种摄像机效果的电影动画、流畅的帧插值、自动上下文音频生成以及复杂的上下文理解,以引导场景流程和氛围。
问:支持的最大视频时长和分辨率是多少?
答:Veo 3.1 可以生成最长 8 秒、最高分辨率为 720p 的视频,保证稳定生成,且不会造成明显的质量损失。
问:Veo 3.1 是如何处理音频生成的?
答:Veo 3.1 集成了原生上下文音频生成功能,可自动创建与生成的视频的视觉事件和整体上下文紧密同步的配乐和音效。
问:Veo 3.1 可以用于商业用途吗?
答:是的,Veo 3.1 图像转视频非常适合商业应用,例如营销内容、社交媒体故事、电影故事板和多媒体演示,但需遵守 AI/ML API 的服务条款。



登录