



const main = async () => {
const response = await fetch('https://api.ai.cc/v2/video/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'alibaba/wan2.2-14b-animate-replace',
prompt: 'Mona Lisa puts on glasses with her hands.',
video_url: 'https://storage.googleapis.com/falserverless/example_inputs/wan_animate_input_video.mp4',
image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
resolution: "720p",
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/video/generations"
payload = {
"model": "alibaba/wan2.2-14b-animate-replace",
"prompt": "Mona Lisa puts on glasses with her hands.",
"video_url": "https://storage.googleapis.com/falserverless/example_inputs/wan_animate_input_video.mp4",
"image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
"resolution": "720p",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

Detalhes do produto
O Wan 2.2 14B Animar Substituir O modelo representa um avanço em geração de vídeo por IA, projetado especificamente para precisão substituição de personagem dentro de uma gravação de vídeo existente. Este modelo avançado se destaca por manter os elementos intrínsecos do vídeo original – sua cena, fundo, ângulos de câmera e sincronização precisa – enquanto substitui perfeitamente a pessoa original por um novo personagem derivado de uma única foto de referência. Os usuários têm a flexibilidade de escolher entre substituir apenas o rosto ou realizar uma substituição de corpo inteiro, preservando as poses corporais originais e garantindo movimentos labiais perfeitamente sincronizados.
Especificações técnicas
- ✨ Tamanho do modelo: 14 bilhões de parâmetros que alimentam a espinha dorsal da geração de energia.
- 🧠 Arquitetura: Um gerador de vídeo robusto com Transformador de Difusão, apresentando um design que combina diferentes níveis de especialização para maior capacidade e computação eficiente.
- 🌌 Processamento do Espaço Latente: Utiliza um Autoencoder Variacional (VAE) causal 3D personalizado (~127 milhões de parâmetros) para compressão de vídeo latente espaço-temporal.
- 🕰️ Causalidade: A causalidade temporal garante que os quadros futuros não influenciem os quadros passados, resultando na geração de movimentos estáveis e coerentes.
- 👁️ Mecanismo de Atenção: Agrupamento de autoatenção espaço-temporal em quadros e pixels de vídeo.
- ✍️ Condicionamento: Atenção cruzada a características de texto através de um codificador T5 para controle opcional baseado em texto.
- 📥 Entrada: Requer uma única imagem de referência (para identidade) e um vídeo de referência (para movimento).
- 📤 Saída: Gera um vídeo com o personagem substituído, entregue em resolução 720p a 24 quadros por segundo.
Indicadores de desempenho
- 🖼️ Qualidade do vídeo: Oferece substituição de personagens de alta fidelidade com movimentos incrivelmente suaves e expressões faciais naturais.
- 📏 Resolução e taxa de quadros: Suporta consistentemente resolução 720p a 24 quadros por segundo.
- ⚡ Latência: A velocidade de geração local depende da GPU; as GPUs H100 oferecem inferência significativamente mais rápida em comparação com as GPUs de consumo.
- 📉 Eficiência de Recursos: A arquitetura inovadora de combinação de especialistas aumenta a capacidade do modelo sem um aumento proporcional no custo computacional.
Principais características
- 👤 Substituição de Personagem: Substitua facilmente a pessoa original de um vídeo por uma nova, usando apenas uma única imagem de referência.
- 🎭 Substituição total ou parcial: Escolha o nível de substituição desejado – desde apenas o rosto até uma substituição completa do corpo.
- 🕺 Preservação da pose e da expressão facial: Preserva a integridade das poses corporais originais, movimentos da cabeça e sincronização labial para uma animação incrivelmente natural.
- 🏞️ Consistência de cena: Garante que o fundo, os ângulos da câmera, a iluminação e o tempo permaneçam perfeitamente intactos.
- 🌟 Alto Realismo: Utiliza rastreamento de movimento baseado em esqueletos e codificação facial precisa para produzir animações suaves e altamente realistas.
- 💻 Implantação local: Capaz de ser executado localmente com configurações de hardware apropriadas, suportando a geração de saída de alta qualidade.
Preços da API
- 480p: $ 0,042
- 580p: $ 0,063
- 720p: $ 0,084
Casos de uso
- 📈 Marketing e Publicidade: Substituição dinâmica de personagens em vídeo para conteúdo de marketing e publicidade envolvente.
- ✨ Influenciadores Virtuais: Criação de influenciadores virtuais e avatares com imitação realista de expressões faciais em tempo real.
- 🎬 Produção de filmes e vídeos: Agilize a pré-visualização e as refilmagens de filmes e vídeos sem a necessidade de novas filmagens.
- 🎨 Conteúdo personalizado: Gere conteúdo personalizado criado pelo usuário com personagens personalizados.
- 📱 Animação para redes sociais: Anime fotos para criar publicações cativantes e divertidas nas redes sociais.
- 📚 Conteúdo Educacional: Personalize vídeos educacionais e de treinamento com personagens sob medida.
- 🔒 Preservação da privacidade: Aumente a privacidade substituindo rostos em gravações existentes para a criação de conteúdo sensível.
- 🎭 Efeitos Digitais: Facilitar a produção de efeitos digitais e deepfakes, com foco em controles éticos.
Exemplo de código
data-name ="alibaba.create-video-to-video-generation" data-model ="alibaba/wan2.2-14b-animate-replace" > Comparação com outros modelos
Vídeo de difusão estável versus: Wan 2.2 Animar Substituir O foco principal é a substituição completa de caracteres em vídeos, oferecendo expressão holística e transferência de movimento. Essa capacidade supera as extensões padrão de Difusão Estável, que normalmente se limitam à geração de clipes curtos e frequentemente apresentam controle temporal menos consistente. Além disso, o Wan 2.2 pode processar vídeos mais longos (de até vários minutos), uma vantagem significativa em relação às saídas normalmente mais curtas dos modelos de vídeo de Difusão Estável.
vs Imagem Vídeo (Google): O Imagen Video é voltado principalmente para a geração de vídeos a partir de textos com alta qualidade visual, mas não oferece, inerentemente, recursos específicos de substituição de caracteres. Wan 2.2 Animate Replace's O diferencial exclusivo reside na unificação dos modos de animação e substituição, proporcionando controle detalhado sobre expressões e movimentos, atendendo assim especificamente a fluxos de trabalho centrados em personagens.
vs Meta Make-A-Video: Embora o Make-A-Video gere videoclipes curtos a partir de texto, ele não possui a substituição de caracteres direcionada que Wan 2.2 Animar Substituir O Wan 2.2 se especializa na substituição de personagens com sincronização precisa de poses e lábios em vídeos existentes, tornando-o mais prático para fluxos de trabalho de pós-produção e edição de vídeo, em contraste com o foco do Make-A-Video na criação geral de cenas.
Integração de API
Wan 2.2 Animar Substituir é acessível através da API de IA/ML. A documentação completa está disponível. disponível aqui.
Perguntas frequentes (FAQ)
O que é Wan 2.2 14B Animate Replace?
Wan 2.2 14B Animate Replace é um modelo avançado de geração de vídeo com IA, projetado para substituir personagens em vídeos existentes com precisão. Ele mantém de forma inteligente a cena, o plano de fundo, os ângulos de câmera e o tempo do vídeo original, enquanto integra um novo personagem a partir de uma imagem de referência.
Posso substituir apenas o rosto ou o corpo inteiro?
Sim, o modelo oferece flexibilidade. Você pode optar por substituir apenas o rosto do personagem original ou escolher uma substituição de corpo inteiro, sendo que ambas as opções preservam as poses corporais originais e a sincronização labial para uma animação natural.
Como o Wan 2.2 garante a consistência do vídeo após a substituição?
O modelo foi projetado para manter a consistência da cena, preservando o fundo original, os ângulos de câmera, as condições de iluminação e a sincronização. Ele se concentra exclusivamente na substituição do personagem, mantendo todos os outros elementos do vídeo.
Quais são as principais aplicações dessa tecnologia de substituição de caracteres?
As principais aplicações incluem a substituição de personagens em vídeos publicitários, a criação de influenciadores e avatares virtuais, a pré-visualização de filmes, o conteúdo personalizado gerado pelo usuário, a customização de vídeos educacionais e a criação de conteúdo que preserva a privacidade.
A implantação local é uma opção para o Wan 2.2 Animate Replace?
Sim, o Wan 2.2 14B Animate Replace pode ser implementado e executado localmente, desde que você tenha a configuração de hardware adequada. Isso permite a geração de saída de alta qualidade diretamente em sua própria infraestrutura.
Playground de IA



Conecte-se