



const main = async () => {
const response = await fetch('https://api.ai.cc/v2/video/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'google/veo-3.1-i2v',
prompt: 'A jellyfish in the ocean',
image_url: 'https://upload.wikimedia.org/wikipedia/commons/3/35/Maldivesfish2.jpg',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/video/generations"
payload = {
"model": "google/veo-3.1-i2v",
"prompt": "A jellyfish in the ocean",
"image_url": "https://upload.wikimedia.org/wikipedia/commons/3/35/Maldivesfish2.jpg",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

Detalle del producto
💡 Veo 3.1: Transformando imágenes en vídeo cinematográfico
Veo 3.1 , desarrollado por Google DeepMind, es un modelo avanzado de generación de video diseñado para convertir imágenes estáticas en secuencias de video fluidas y cinematográficas. Destaca por crear movimiento natural, iluminación realista y bandas sonoras contextuales, lo que lo hace muy versátil para diversas aplicaciones multimedia.
🔧 Especificaciones técnicas
- Tipos de entrada: Imagen estática única
- Duración de salida: hasta 8 segundos de vídeo
- Resolución máxima: 720p
- Formatos compatibles: horizontal (16:9) y vertical (9:16)
- Audio: Generación de audio contextual nativa integrada
Puntos de referencia de rendimiento
- Duración del video: Generación estable de clips de hasta 8 segundos sin pérdida significativa de calidad.
- Calidad de resolución: mantiene imágenes nítidas de hasta 720p con efectos de iluminación natural.
- Realismo de movimiento: alta fidelidad en los movimientos de la cámara y animaciones de objetos que imitan la física del mundo real.
- Sincronización de audio: banda sonora y efectos estrechamente sincronizados con los eventos visuales y el contexto.
⭐ Características principales
- Animación cinematográfica: agrega movimientos de cámara, incluidos efectos de panorámica, inclinación, zoom y dolly para crear profundidad y volumen.
- Interpolación de cuadros: admite animaciones de un solo cuadro y transiciones suaves entre diferentes imágenes.
- Generación de audio contextual: genera automáticamente bandas sonoras y efectos de audio que se alinean con la acción en pantalla.
- Comprensión contextual: interpreta el contenido visual y las indicaciones textuales para guiar el flujo y la atmósfera de la escena.
Precios de la API de Veo 3.1
- $0,21/seg (audio desactivado)
- $0,42/seg (audio activado)
📊 Casos de uso
- Creación de contenido de marketing: genere videos promocionales cortos y atractivos a partir de imágenes estáticas.
- Historias de redes sociales: produce videos verticales optimizados para plataformas como Instagram y TikTok.
- Guión gráfico cinematográfico: visualice escenas complejas utilizando fotogramas de inicio y fin con interpolaciones suaves.
- Presentaciones multimedia: mejore las imágenes estáticas con movimiento dinámico y audio para obtener presentaciones impactantes.
- Expresión creativa: inserte nuevos personajes u objetos en el contenido de video con fines narrativos o artísticos.
Ejemplo de código
// Example API call for Veo 3.1 Image-to-Video generation POST /v1/video/generate // Request Body { "model" : "google/veo-3.1-i2v" , "image_url" : "https://example.com/static-image.jpg" , "prompt" : "A serene landscape with gentle camera pan and a bird flying in the distance." , "duration_seconds" : 5 , "audio_enabled" : true , "resolution" : "720p" }
📈 Comparación con otros modelos
- vs. Imagen Video: Veo 3.1 se especializa en la transformación de imágenes estáticas en vídeo con audio nativo. Imagen Video se centra principalmente en la síntesis de texto a vídeo sin diseño de sonido integrado.
- vs. Runway Gen-4: Veo 3.1 ofrece un potente audio contextual y efectos de cámara cinematográficos. Runway Gen-4 prioriza la generación de vídeo de alta resolución, pero suele requerir procesamiento de audio externo.
- vs. Meta Make-A-Video: Veo 3.1 admite la inserción detallada de objetos después de la generación y múltiples relaciones de aspecto. Make-A-Video ofrece una generación de texto a vídeo más amplia, pero carece de audio integrado.
🔗 Integración API
Acceda a Veo 3.1 mediante la API de IA/ML. Para obtener documentación completa, consulte Documentación de la API de imagen a vídeo de Veo 3.1.
❓ Preguntas frecuentes (FAQ)
P: ¿Qué es el modelo de IA de imagen a video de Veo 3.1?
A: Veo 3.1 Image to Video es un modelo de IA avanzado que transforma imágenes estáticas en videos dinámicos y animados generando movimiento coherente, movimientos de cámara y evolución de la escena mientras preserva la calidad visual y la composición de la imagen original.
P: ¿Cuáles son las características principales de Veo 3.1?
R: Las características principales incluyen animación cinematográfica con varios efectos de cámara, interpolación suave de cuadros, generación automática de audio contextual y comprensión contextual sofisticada para guiar el flujo y la atmósfera de la escena.
P: ¿Cuál es la duración máxima de video y la resolución admitida?
R: Veo 3.1 puede generar vídeos de hasta 8 segundos de duración con una resolución máxima de 720p, lo que garantiza una generación estable sin pérdida significativa de calidad.
P: ¿Cómo gestiona Veo 3.1 la generación de audio?
A: Veo 3.1 integra generación de audio contextual nativa, creando automáticamente bandas sonoras y efectos de sonido que están estrechamente sincronizados con los eventos visuales y el contexto general del video generado.
P: ¿Se puede utilizar Veo 3.1 con fines comerciales?
R: Sí, Veo 3.1 Image to Video es muy adecuado para aplicaciones comerciales como contenido de marketing, historias en redes sociales, guiones gráficos cinematográficos y presentaciones multimedia, sujeto a los términos de servicio de la API de IA/ML.
Patio de juegos de IA



Acceso