Afuera

Charlar

desactivar

Kling V2.1 Estándar de imagen a vídeo

Equilibra la salida de alta resolución con un procesamiento eficiente y simulaciones de cámara dinámicas para aplicaciones multimedia versátiles.

Tokens gratis de $1 para nuevos miembros

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/generate/video/kling/generation', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'kling-video/v2.1/standard/image-to-video',
      prompt: 'Mona Lisa puts on glasses with her hands.',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
      duration: '5',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                        import requests


def main():
    url = "https://api.ai.cc/v2/generate/video/kling/generation"
    payload = {
        "model": "kling-video/v2.1/standard/image-to-video",
        "prompt": "Mona Lisa puts on glasses with her hands.",
        "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
        "duration": "5",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()

Docs

Una API con más de 300 modelos de IA

Ahorre un 20% en costos y $1 en tokens gratis

Obtener clave API Explorar modelos

Kling V2.1 Estándar de imagen a vídeo

Detalle del producto

El Kling V2.1 Estándar de imagen a vídeo El modelo de generación marca un avance significativo en las capacidades de la IA multimodal, ofreciendo una síntesis de video robusta y versátil. Transforma imágenes estáticas, opcionalmente guiadas por indicaciones textuales, en contenido de video dinámico. Esta iteración se centra en una mayor estabilidad, una mayor calidad de imagen y una mayor coherencia temporal, manteniendo al mismo tiempo una accesibilidad intuitiva y un rendimiento computacional eficiente.

✨ Especificaciones técnicas

• Calidad de generación de video: Emplea transformadores convolucionales espaciotemporales avanzados combinados con nuevos módulos de inferencia de movimiento para generar secuencias de video fluidas, consistentes y con artefactos minimizados a partir de imágenes de fotogramas clave individuales o múltiples.
• Resolución y velocidad de cuadros: Admite resoluciones de salida de hasta 1080p Full HD a un ritmo constante 24 fps, optimizado para un equilibrio entre fidelidad visual y representación eficiente adecuada para aplicaciones en tiempo real y generación por lotes.
• Integración de indicaciones e imágenes: Cuenta con una sofisticada arquitectura de fusión intermodal que combina sinérgicamente la extracción de características de imágenes detalladas con indicaciones en lenguaje natural, lo que permite una evolución matizada de la escena y modificaciones estilísticas.
• Efectos de cámara y movimiento: Incorpora síntesis de movimiento de cámara de base, que incluye panorámica, zoom lento y sutiles efectos de paralaje, para mejorar la inmersión y la narración dinámica al tiempo que garantiza la consistencia visual y las transiciones naturales.

Ejemplo de generación de imagen a vídeo de Kling V2.1

📚 Datos de entrenamiento

El modelo se entrenó con un corpus multimedia ampliado y diverso que comprende conjuntos de datos de imagen a vídeo emparejados en múltiples dominios: clips cinematográficos, escenas de la naturaleza, entornos urbanos y obras de arte dinámicas. Este conjunto de datos incluye anotaciones detalladas y subtítulos descriptivos multilingües, lo que facilita una sólida generalización en distintos estilos, movimientos y contextos culturales.

📈 Métricas de rendimiento

Kling V2.1 logra una alta relación fidelidad-latencia, ofreciendo salidas de video fluidas con mínimos artefactos temporales a velocidades de inferencia competitivas. Admite procesamiento por lotes y generación de video de duración variable guiada por indicaciones, ofreciendo un control preciso de la amplitud del movimiento y consistencia estilística.

💲 Precios de la API

A partir de $0,0588 por segundo de vídeo generado.

💡 Características principales

✅ Generación directa de imagen a vídeo: Convierte una sola imagen o un conjunto de imágenes en secuencias de vídeo fluidas y coherentes, preservando los elementos visuales esenciales al tiempo que introduce un movimiento plausible consistente con la semántica de la escena.
✅ Condicionamiento de estímulos multimodales: Permite a los usuarios controlar la dinámica y la estética del vídeo a través de indicaciones textuales opcionales, lo que aumenta la flexibilidad creativa y la profundidad narrativa.
✅ Coherencia temporal mejorada: Incorpora nuevas técnicas de regularización temporal, reduciendo significativamente el parpadeo, la vibración y las discontinuidades del movimiento para mantener un flujo visual fluido entre los fotogramas.
✅ Emulación de cámara dinámica: Implementa movimientos fundamentales de la cámara, incluidos zooms sutiles, movimientos panorámicos y ligeros cambios de rotación, mejorando la profundidad de la escena y la presencia cinematográfica sin sacrificar el rendimiento.
✅ Adaptabilidad estilística y contextual: Capacitado para funcionar en una amplia gama de géneros visuales, incluidos paisajes naturales, entornos urbanos, estilos de animación y representaciones artísticas, lo que permite diversas producciones creativas.
✅ Soporte multilingüe: Presenta una sólida comprensión y procesamiento de indicaciones en inglés, chino e idiomas adicionales, lo que satisface las necesidades de los usuarios globales y amplias aplicaciones internacionales.

🚀 Casos de uso

➤ Desarrollo de vídeo artístico y creativo a partir de activos visuales existentes.
➤ Mejora de vídeo y creación de escenas dinámicas para contenido de marketing atractivo.
➤ Redes sociales y narración digital: transforman imágenes estáticas en movimiento atractivo.
➤ Visualización de concepto preliminar y prototipado multimedia rápido.
➤ Aplicación en juegos, generación de contenidos AR/VR y experiencias multimedia interactivas.
➤ Generación de contenido de video multilingüe para la participación de audiencias diversas en todo el mundo.

💻 Ejemplo de código

 // Fragmento de código Python de ejemplo para la integración de la API de imagen a video de Kling V2.1 import kling_api # Inicialice el cliente de la API de Kling con su clave de autenticación client = kling_api.KlingClient(api_key="YOUR_API_KEY") # Defina su imagen de entrada y un mensaje de texto opcional image_path = "path/to/your/input_image.jpg" text_prompt = "Un águila majestuosa volando sobre montañas cubiertas de nieve al amanecer". video_duration = 5 # Duración de video deseada en segundos try: with open(image_path, "rb") as image_file: # Llamar al punto final de generación de imagen a video response = client.generate_video( model="kling-video/v2.1/standard/image-to-video", image=image_file.read(), prompt=text_prompt, duration=video_duration ) if response.status == "success": print("¡Generación de video exitosa!") print(f"URL de video generada: {response.video_url}") # Pasos adicionales: p. ej., descargue el video o intégrelo en su aplicación else: print(f"Error en la generación de video: {response.error_message}") except FileNotFoundError: print(f"Error: Archivo de imagen no encontrado en {image_path}") except Exception as e: print(f"Ocurrió un error inesperado: {e}")

🆚 Comparación con otros modelos

vs Kling V2.0 Estándar I2V: Kling V2.1 ofrece mejoras significativas, aumentando la resolución de salida de 720p a 1080pOfrece una mayor fluidez temporal gracias a módulos de inferencia de movimiento optimizados e integra un mecanismo de fusión intermodal más potente para una alineación de imagen y texto superior y una consistencia general del video. Tanto la velocidad de inferencia como el rendimiento de la API se han optimizado para lograr una menor latencia y una mayor concurrencia.

vs Kling V1.5 Estándar T2V: Mientras que la versión 1.5 se centra principalmente en la síntesis de texto a vídeo (T2V), la versión 2.1 estándar I2V cambia el paradigma hacia generación de vídeo condicionada por imagen (I2V). La versión 2.1 ofrece una dinámica de escena más rica, guiada principalmente por información visual con indicaciones textuales complementarias, lo que amplía considerablemente su versatilidad. A pesar de su enfoque en la modalidad de entrada, la versión 2.1 también ofrece mejoras notables en la continuidad temporal y la resolución.

❓ Preguntas frecuentes (FAQ)

P1: ¿Cuáles son las principales ventajas de Kling V2.1 sobre su predecesor, V2.0?

Kling V2.1 ofrece avances significativos, incluidos Resolución de salida Full HD de 1080p (A partir de 720p), mayor fluidez temporal y mejor alineación entre imagen y texto gracias a un mecanismo de fusión intermodal más potente. Además, ofrece una velocidad de inferencia optimizada y un rendimiento de API optimizado para una mayor eficiencia.

P2: ¿Puede Kling V2.1 generar vídeos a partir de varias imágenes o solo de una única imagen?

Kling V2.1 es versátil y puede generar secuencias de video fluidas y coherentes a partir de una única imagen estática o de un conjunto de múltiples imágenes de fotogramas clave, integrándolas en una narrativa visual dinámica.

P3: ¿Cómo la ayuda textual mejora el proceso de generación de videos?

Las indicaciones textuales opcionales permiten a los usuarios controlar con precisión la dinámica, la estética y la narrativa general del video. Este condicionamiento multimodal facilita la evolución matizada de la escena y las modificaciones estilísticas, profundamente arraigadas tanto en las imágenes de entrada como en el contexto textual proporcionado.

P4: ¿Kling V2.1 es adecuado para aplicaciones que requieren generación de vídeo en tiempo real?

Sí, el modelo está optimizado para lograr un equilibrio entre fidelidad visual y renderizado eficiente. Esto lo hace ideal para aplicaciones en tiempo real, medios interactivos y generación de video por lotes, gracias a sus competitivas velocidades de inferencia y mínimos artefactos temporales.

P5: ¿Qué idiomas son compatibles con las indicaciones textuales en Kling V2.1?

Kling V2.1 ofrece un sólido soporte multilingüe. Puede comprender y procesar eficazmente las indicaciones proporcionadas en inglés, chino y otros idiomas, atendiendo así a una base de usuarios diversa e internacional.

Patio de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.

Pruébalo gratis

Una API
Más de 300 modelos de IA

Ahorre un 20% en costos