



const main = async () => {
const response = await fetch('https://api.ai.cc/v2/video/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'alibaba/wan2.2-14b-animate-move',
prompt: 'Mona Lisa puts on glasses with her hands.',
video_url: 'https://storage.googleapis.com/falserverless/example_inputs/wan_animate_input_video.mp4',
image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
resolution: "720p",
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/video/generations"
payload = {
"model": "alibaba/wan2.2-14b-animate-move",
"prompt": "Mona Lisa puts on glasses with her hands.",
"video_url": "https://storage.googleapis.com/falserverless/example_inputs/wan_animate_input_video.mp4",
"image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
"resolution": "720p",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

Détails du produit
Le Wan 2.2 14B Animate Move Il s'agit d'un modèle de génération vidéo par IA à grande échelle de pointe, conçu spécifiquement pour animer des images de personnages statiques avec une précision inégalée. Il donne vie à des photos en transposant des mouvements et des expressions complexes à partir d'une vidéo de référence, ce qui en fait un outil précieux pour les créateurs.
Les utilisateurs peuvent facilement importer une image statique du personnage et une vidéo contenant les mouvements souhaités. Le système extrait intelligemment les poses et les masques, puis anime le personnage. Mode d'animationElle crée ainsi une toute nouvelle vidéo où le personnage statique imite précisément les gestes et les angles de la vidéo d'origine, produisant un contenu animé très réaliste et captivant.
⚙️ Spécifications techniques
- Taille du modèle : 14 milliards de paramètres (colonne de base de la génération)
- Architecture: Modèle de transformateur de diffusion avec Mélange d'experts (MoE) Conception permettant d'accroître les capacités sans surcoût de calcul.
- Objectif de la formation : Appariement de flux avec débruitage de type diffusion dans un espace latent spatio-temporel 3D compact.
- Mécanisme d'attention : Auto-attention spatio-temporelle mise en commun à travers les images et les pixels, plus attention croisée aux caractéristiques du texte (optionnel).
- Entrées : Image de référence (photo statique du personnage) + Vidéo de référence (animation).
- Sortir: Haute qualité Vidéos 720p à 24 images par seconde avec une animation des personnages reproduisant les mouvements et les expressions de la vidéo de référence.
📈 Indicateurs de performance
- Compatibilité GPU : Testé avec succès sur des GPU haut de gamme comme le NVIDIA H100 (80 Go) avec une VRAM recommandée d'environ 75 Go pour les séquences prolongées.
- Qualité de sortie : Capable de produire des vidéos cohérentes et de haute qualité, avec des mouvements et des expressions de personnages naturels.
- Préservation de l'identité : Démontre une préservation robuste de l'identité à partir d'une seule image de référence lors du transfert de mouvement dynamique.
- Environnement: Optimisé pour Ubuntu et les environnements compatibles CUDA avec les piles PyTorch modernes.
- Longueur du contenu : Gère efficacement les formats vidéo adaptés aux clips des réseaux sociaux et aux courts contenus animés.
✨ Fonctionnalités clés
- Transfert de mouvement précis : Anime des images statiques en utilisant le mouvement en direct de vidéos de référence, en transposant avec précision les expressions corporelles et faciales.
- Architecture efficace : L'architecture Mixture-of-Experts permet de gérer des mouvements complexes et un mappage d'expressions détaillé sans coût de calcul supplémentaire.
- Stabilité temporelle : Haute stabilité temporelle en mouvement grâce à une méthode de compression 3D causale, empêchant les artefacts causés par les fuites d'images futures.
- Intégration réaliste : Permet une intégration réaliste des personnages animés dans leur environnement, en contrôlant l'éclairage et les couleurs pour s'adapter dynamiquement aux arrière-plans.
- Production de haute qualité : Assure une livraison en douceur Sortie à 24 images par seconde en résolution HD 720p pour les réseaux sociaux et les plateformes de création de contenu.
- Inférence en temps réel : Offre un flux de travail d'inférence locale en temps réel pratique via une interface conviviale Interface intégrée.
💲 Tarification de l'API
- 480p : 0,042 $
- 580p : 0,063 $
- 720p : 0,084 $
💡 Cas d'utilisation
- Médias sociaux et contenu numérique : Création de vidéos animées à partir d'images de personnages statiques pour une présence en ligne attrayante.
- Animation d'avatars et de personnages virtuels : Générer des transferts de mouvement et d'expression réalistes pour les avatars et les personnages virtuels dans les jeux ou les métavers.
- Remplacement de personnages par l'IA : Remplacement des personnages dans les vidéos existantes avec une fidélité de mouvement contrôlable.
- Prototypage d'animation : Prototypage rapide et itération d'animations grâce aux capacités d'inférence GPU locale.
- Donner aux créateurs les moyens d'agir : Permettre aux créateurs de contenu et aux animateurs ayant des compétences minimales en animation manuelle de produire des animations de qualité professionnelle.
🔍 Comparaison avec d'autres modèles
Lors de l'évaluation des solutions d'animation par IA, il est crucial de comprendre en quoi Wan 2.2 14B Animate Move se distingue :
- vs FLUX.1 Kontext [dev] : Wan 2.2 offre un transfert de mouvement profond avec modélisation temporelle causale, excellant dans la préservation de l'identité et la fluidité naturelle. En revanche, FLUX.1 Contexte [développeur] se concentre davantage sur le contrôle de cohérence des poids ouverts, adapté aux pipelines d'animation personnalisés.
- vs Adobe Animate : La force de Wan 2.2 réside dans son animation spontanée, alimentée par l'IA, à partir de données de mouvement en direct, notamment pour les visages et les corps des personnages. Cela contraste avec Adobe Animate Outils d'animation traditionnels image par image et vectoriels qui reposent fortement sur une saisie manuelle de la conception.
- vs FLUX.1 Contexte Max : Wan 2.2 est optimisé pour la génération de vidéos 720p de haute qualité avec un transfert de mouvement fluide pour des clips vidéo compacts. FLUX.1 Contexte Max, cependant, il vise une précision de niveau professionnel et des séquences animées longues et complexes souvent nécessaires dans les productions de studio.
- contre Animaker : Wan 2.2 est techniquement avancé grâce à son transfert de pose et d'expression piloté par l'IA, générant une vidéo dynamique complète à partir d'une seule image. Animaker Destiné aux débutants, ce jeu propose des animations par glisser-déposer basées sur des modèles et une personnalisation des mouvements limitée.
🔌 Intégration API
Wan 2.2 14B Animate Move est accessible via l'API IA/ML. Une documentation complète est disponible. disponible ici.
❓ Foire aux questions (FAQ)
Qu'est-ce que Wan 2.2 14B Animate Move ?
Il s'agit d'un modèle d'IA avancé conçu pour générer des vidéos animées en transférant les mouvements et les expressions d'une vidéo de référence sur l'image d'un personnage statique. Il donne vie aux photos fixes grâce à des mouvements dynamiques.
En quoi diffère-t-il des logiciels d'animation traditionnels ?
Contrairement aux logiciels traditionnels qui nécessitent une saisie manuelle image par image ou par image clé, Wan 2.2 utilise l'IA pour extraire automatiquement le mouvement des vidéos en direct et l'appliquer à une image statique, réduisant ainsi considérablement l'effort et les compétences nécessaires à l'animation.
À quel type de qualité de production puis-je m'attendre ?
Le modèle génère des vidéos 720p de haute qualité à 24 images par seconde (ips) avec des mouvements et des expressions de personnages d'apparence naturelle, assurant une préservation robuste de l'identité à partir de l'image statique originale.
Convient-il à un usage professionnel ?
Oui, ses capacités de transfert de mouvement réaliste, sa grande stabilité temporelle et sa sortie HD en font la solution idéale pour les créateurs de contenu, les animateurs et les développeurs qui cherchent à produire du contenu animé de qualité professionnelle pour les médias sociaux, les personnages virtuels et le prototypage rapide.
Quelles sont les exigences techniques pour faire fonctionner ce modèle ?
Pour les séquences longues, il est recommandé d'utiliser des GPU haut de gamme comme la NVIDIA H100 (80 Go) avec environ 75 Go de VRAM. Ce logiciel est optimisé pour Ubuntu et les environnements compatibles CUDA utilisant les piles PyTorch modernes, et offre une inférence locale en temps réel via une interface Gradio.
Terrain de jeu de l'IA



Se connecter