



const main = async () => {
const response = await fetch('https://api.ai.cc/v2/generate/video/kling/generation', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'kling-video/v2.1/standard/image-to-video',
prompt: 'Mona Lisa puts on glasses with her hands.',
image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
duration: '5',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/generate/video/kling/generation"
payload = {
"model": "kling-video/v2.1/standard/image-to-video",
"prompt": "Mona Lisa puts on glasses with her hands.",
"image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
"duration": "5",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

Détails du produit
Le Kling V2.1 Standard Image-to-Video Ce modèle de génération représente une avancée majeure dans les capacités de l'IA multimodale, offrant une synthèse vidéo robuste et polyvalente. Il transforme des images statiques, éventuellement guidées par des instructions textuelles, en contenu vidéo dynamique. Cette version met l'accent sur une stabilité accrue, une meilleure qualité d'image et une cohérence temporelle renforcée, tout en conservant une accessibilité conviviale et des performances de calcul optimales.
✨ Spécifications techniques
- • Qualité de génération vidéo : Utilise des transformateurs convolutionnels spatio-temporels avancés associés à de nouveaux modules d'inférence de mouvement pour générer des séquences vidéo fluides, cohérentes et minimisant les artefacts à partir d'images clés uniques ou multiples.
- • Résolution et fréquence d'images : Prend en charge des résolutions de sortie jusqu'à 1080p Full HD à un rythme constant 24 images par seconde, optimisé pour un compromis équilibré entre fidélité visuelle et rendu efficace, adapté aux applications en temps réel et à la génération par lots.
- • Intégration des invites et des images : Il est doté d'une architecture de fusion intermodale sophistiquée qui combine de manière synergique l'extraction détaillée des caractéristiques de l'image avec des invites en langage naturel, permettant une évolution nuancée de la scène et des modifications stylistiques.
- • Caméra et effets de mouvement : Intègre une synthèse de mouvement de caméra de base, incluant des panoramiques, des zooms lents et des effets de parallaxe subtils, pour améliorer l'immersion et la narration dynamique tout en assurant une cohérence visuelle et des transitions naturelles.
📚 Données d'entraînement
Le modèle a été entraîné sur un corpus multimédia étendu et diversifié, comprenant des paires image-vidéo issues de multiples domaines : extraits de films, scènes de nature, environnements urbains et œuvres d’art dynamiques. Ce corpus comporte de riches annotations et des légendes descriptives multilingues, ce qui favorise une forte généralisation à travers les styles, les mouvements et les contextes culturels.
📈 Indicateurs de performance
Kling V2.1 offre un rapport fidélité/latence élevé, garantissant des sorties vidéo fluides avec un minimum d'artefacts temporels et des vitesses d'inférence compétitives. Il prend en charge le traitement par lots et la génération de vidéos à longueur variable guidée par des invites, offrant un contrôle précis de l'amplitude des mouvements et de la cohérence stylistique.
💲 Tarification de l'API
À partir de 0,0588 $ par seconde de vidéo générée.
💡 Caractéristiques principales
- ✅ Génération directe d'images en vidéo : Convertit une image unique ou un ensemble d'images en séquences vidéo fluides et cohérentes, préservant les éléments visuels essentiels tout en introduisant un mouvement plausible et cohérent avec la sémantique de la scène.
- ✅ Conditionnement multimodal par incitation : Permet aux utilisateurs de contrôler la dynamique et l'esthétique de la vidéo via des invites textuelles facultatives, augmentant ainsi la flexibilité créative et la profondeur narrative.
- ✅ Cohérence temporelle améliorée : Intègre de nouvelles techniques de régularisation temporelle, réduisant considérablement le scintillement, les saccades et les discontinuités de mouvement afin de maintenir un flux visuel fluide entre les images.
- ✅ Émulation dynamique de caméra : Il met en œuvre des mouvements de caméra fondamentaux, notamment des zooms subtils, des panoramiques et de légers décalages de rotation, améliorant la profondeur de la scène et la présence cinématographique sans sacrifier les performances.
- ✅ Adaptabilité stylistique et contextuelle : Formés pour travailler dans un large éventail de genres visuels, notamment les paysages naturels, les environnements urbains, les styles d'animation et les rendus artistiques, permettant des productions créatives diversifiées.
- ✅ Assistance multilingue : Il offre une compréhension et un traitement robustes des invites en anglais, en chinois et dans d'autres langues, répondant ainsi aux besoins des utilisateurs du monde entier et à de nombreuses applications internationales.
🚀 Cas d'utilisation
- ➤ Développement vidéo artistique et créatif à partir d'éléments visuels existants.
- ➤ Amélioration vidéo et création de scènes dynamiques pour un contenu marketing percutant.
- ➤ Les médias sociaux et la narration numérique transforment les images statiques en animations captivantes.
- ➤ Visualisation préliminaire du concept et prototypage multimédia rapide.
- ➤ Application dans les jeux vidéo, la génération de contenu AR/VR et les expériences multimédias interactives.
- ➤ Création de contenu vidéo multilingue pour engager un public diversifié dans le monde entier.
💻 Exemple de code
// Exemple de code Python pour l'intégration de l'API Kling V2.1 Image-to-Video import kling_api # Initialisation du client API Kling avec votre clé d'authentification client = kling_api.KlingClient(api_key="VOTRE_CLÉ_API") # Définition de votre image d'entrée et d'une invite textuelle facultative image_path = "chemin/vers/votre/image_d'entrée.jpg" text_prompt = "Un aigle majestueux planant au-dessus de montagnes enneigées au lever du soleil." video_duration = 5 # Durée vidéo souhaitée en secondes try: with open(image_path, "rb") as image_file: # Appel du point de terminaison de génération d'image en vidéo response = client.generate_video( model="kling-video/v2.1/standard/image-to-video", image=image_file.read(), prompt=text_prompt, duration=video_duration ) if response.status == "success": print("Génération vidéo réussie !") print(f"URL de la vidéo générée : {response.video_url}") # Étapes suivantes : par exemple, télécharger la vidéo ou l'intégrer à votre application else: print(f"Échec de la génération de la vidéo : {response.error_message}") except FileNotFoundError: print(f"Erreur : fichier image introuvable à l'emplacement {image_path}") except Exception as e: print(f"Une erreur inattendue s'est produite : {e}") 🆚 Comparaison avec d'autres modèles
par rapport à la norme Kling V2.0 I2V : La Kling V2.1 offre des améliorations significatives, augmentant la résolution de sortie de 720p à 1080pIl offre une fluidité temporelle accrue grâce à des modules d'inférence de mouvement améliorés et intègre un mécanisme de fusion intermodale plus performant pour un alignement image-texte optimal et une cohérence vidéo globale accrue. La vitesse d'inférence et le débit de l'API ont été optimisés pour une latence réduite et une concurrence accrue.
par rapport à Kling V1.5 Standard T2V : Alors que la version 1.5 se concentre principalement sur la synthèse texte-vidéo (T2V), la norme I2V de la version 2.1 change de paradigme et s'oriente vers… génération vidéo conditionnée par l'image (I2V). La version 2.1 offre une dynamique de scène plus riche, guidée principalement par des entrées visuelles complétées par des invites textuelles, ce qui élargit considérablement son champ d'application. Malgré cette nouvelle modalité d'entrée, la version 2.1 apporte également des améliorations notables en termes de continuité temporelle et de résolution.
❓ Foire aux questions (FAQ)
Q1 : Quels sont les principaux avantages de Kling V2.1 par rapport à son prédécesseur, V2.0 ?
Kling V2.1 offre des améliorations significatives, notamment Résolution de sortie Full HD 1080p (Résolution supérieure à 720p), fluidité temporelle accrue et alignement image-texte amélioré grâce à un mécanisme de fusion intermodale plus performant. Elle offre également une vitesse d'inférence et un débit API optimisés pour une efficacité accrue.
Q2 : Kling V2.1 peut-il générer des vidéos à partir de plusieurs images, ou seulement d’une seule image ?
Kling V2.1 est polyvalent et peut générer des séquences vidéo fluides et cohérentes à partir d'une seule image statique ou d'un ensemble de plusieurs images clés, en les intégrant dans un récit visuel dynamique.
Q3 : Comment les indications textuelles améliorent-elles le processus de génération vidéo ?
Des invites textuelles facultatives permettent aux utilisateurs d'ajuster avec précision la dynamique, l'esthétique et la direction narrative générale de la vidéo. Ce conditionnement multimodal facilite une évolution nuancée des scènes et des modifications stylistiques profondément ancrées à la fois dans les images d'entrée et dans le contexte textuel fourni.
Q4 : Kling V2.1 convient-il aux applications nécessitant une génération vidéo en temps réel ?
Oui, le modèle est optimisé pour un compromis équilibré entre fidélité visuelle et rendu efficace. Grâce à ses vitesses d'inférence compétitives et à ses artefacts temporels minimaux, il est parfaitement adapté aux applications en temps réel, aux médias interactifs et à la génération vidéo par lots.
Q5 : Quelles langues sont prises en charge pour les invites textuelles dans Kling V2.1 ?
Kling V2.1 offre une prise en charge multilingue performante. Il comprend et traite efficacement les instructions en anglais, en chinois et dans plusieurs autres langues, répondant ainsi aux besoins d'une clientèle internationale et diversifiée.
Terrain de jeu de l'IA



Se connecter