



const main = async () => {
const response = await fetch('https://api.ai.cc/v2/video/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'bytedance/omnihuman',
image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
audio_url: 'https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/video/generations"
payload = {
"model": "bytedance/omnihuman",
"image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
"audio_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

Detalhes do produto
Onihumano é um modelo avançado de IA desenvolvido pela ByteDance para gerar vídeos personalizados e realistas de corpo inteiro A partir de uma única foto e um clipe de áudio (fala ou voz), o modelo produz vídeos de duração arbitrária com proporções e proporções corporais personalizáveis, animando não apenas o rosto, mas o corpo inteiro, incluindo gestos e expressões faciais sincronizados com precisão à fala.
✨ Especificações Técnicas
- Sincronização: A tecnologia avançada de sincronização labial combina com precisão a fala em áudio com os movimentos da boca e as expressões faciais.
- Dinâmica do Movimento: O transformador de difusão prevê e refina o movimento do corpo quadro a quadro para uma animação suave e realista.
- Treinamento multicondicional: Combina entradas de áudio, pose e texto para uma previsão de movimento precisa.
- Interface do usuário: Plataforma fácil de usar com recursos de upload, geração e download, projetada para usuários profissionais e casuais.
📊 Indicadores de desempenho
- Gera vídeos altamente realistas com sincronização labial natural, expressões faciais e gestos corporais completos.
- Supera as tecnologias deepfake tradicionais que se concentram principalmente em rostos, animando o corpo inteiro.
- Transições suaves e alinhamento preciso entre fala e movimento foram confirmados por extensos testes internos em milhares de amostras de vídeo.
- Permite a criação de vídeos mais longos sem perda de sincronização ou naturalidade de movimento.
💰 Preços da API
US$ 0,126 por segundo
🚀 Principais Características
- Duração e proporção de tela do vídeo personalizáveis: Permite criar vídeos de qualquer duração e redimensionar as proporções do corpo.
- Alta fidelidade e naturalidade: Treinado com mais de 18.700 horas de dados de vídeo para dominar gestos, expressões e dinâmicas de movimento sutis.
- Compatibilidade com vários estilos: Trabalha com retratos, imagens de meio corpo ou corpo inteiro, incluindo fotos realistas e poses estilizadas.
💡 Casos de uso
- Criação de avatares digitais realistas para marketing, entretenimento e mídias sociais.
- Geração de avatares de vídeo de corpo inteiro para eventos e apresentações virtuais.
- Criação de personagens controlados por inteligência artificial para jogos, filmes e produção virtual.
- Aprimorando o ensino a distância e a educação online com palestrantes animados.
- Sincronização de dublagem e narração com avatares de vídeo realistas com sincronização labial.
💻 Exemplo de código
↔️ Comparação com outros modelos
vs Meta Make-A-Video: O OmniHuman utiliza entradas multimodais (áudio, imagem e vídeo) para animação humana precisa de corpo inteiro, permitindo gestos e expressões detalhadas. O Meta Make-A-Video gera vídeos curtos a partir de instruções de texto, com foco principal em conteúdo criativo em vez de movimentos humanos realistas.
vs Synthesia: A OmniHuman produz vídeos realistas de corpo inteiro, com sincronização labial e gestos corporais naturais, voltados para diversas aplicações profissionais. A Synthesia se especializa em avatares de cabeça falante com animação da parte superior do corpo, otimizados para apresentações corporativas e e-learning com escopo de movimento mais limitado.
⚠️ Considerações Éticas
Embora o OmniHuman ofereça recursos inovadores, existem riscos relacionados ao uso indevido de deepfakes. É fortemente recomendada a adoção de diretrizes de uso responsável e políticas de gestão de direitos. ao implementar essa tecnologia.
🔗 Integração de API
Acessível via API de IA/ML. Para obter documentação completa, consulte o Documentação oficial da API OmniHuman.
❓ Perguntas frequentes (FAQ)
Que arquitetura generativa permite a síntese fotorrealista de características humanas pelo OmniHuman, abrangendo diversos atributos?
O OmniHuman emprega uma estrutura generativa composicional revolucionária que decompõe a aparência humana em fatores ortogonais, incluindo geometria facial, textura da pele, propriedades do cabelo, morfologia corporal e características expressivas. A arquitetura apresenta representações latentes independentes que permitem o controle sobre atributos demográficos, progressão da idade, expressões emocionais e elementos estilísticos, mantendo a plausibilidade biológica. Fluxos de normalização avançados e processos de difusão garantem uma qualidade de saída fotorrealista, enquanto restrições éticas incorporadas ao processo de treinamento impedem a geração de indivíduos identificáveis sem consentimento explícito.
Como a OmniHuman alcança uma diversidade e inclusão sem precedentes na geração de humanos sintéticos?
O modelo incorpora uma cobertura demográfica e fenotípica abrangente por meio de dados de treinamento selecionados, representando a diversidade humana global em termos de etnia, idade, tipo físico, habilidades e expressões culturais. Técnicas sofisticadas de aumento de dados geram variações contínuas além de categorias discretas, enquanto restrições de equidade no objetivo de treinamento previnem vieses de representação. O sistema inclui controles explícitos para ajustar as proporções de representação e garante uma qualidade de geração equitativa em todos os segmentos demográficos, tornando-o particularmente valioso para a criação de conteúdo visual inclusivo e para evitar representações estereotipadas.
Quais são as capacidades de geração dinâmica que diferenciam o OmniHuman para aplicações interativas?
O OmniHuman suporta a geração em tempo real de representações humanas dinâmicas com expressões faciais, direção do olhar, poses da cabeça e linguagem corporal controláveis. A arquitetura permite a interpolação perfeita entre diferentes atributos, sequências de progressão/regressão de idade e transições de expressões emocionais, mantendo a consistência da identidade. Mecanismos avançados de coerência temporal garantem movimentos e mudanças de expressão suaves, tornando o modelo adequado para aplicações interativas como avatares virtuais, agentes conversacionais e criação de conteúdo dinâmico, onde as representações humanas precisam se adaptar em tempo real às interações do usuário.
Como o modelo garante a geração ética e previne possíveis usos indevidos?
O OmniHuman incorpora diversas salvaguardas éticas, incluindo detecção de similaridade biométrica que impede a recriação de indivíduos existentes, sistemas de moderação de conteúdo que filtram solicitações inapropriadas, mecanismos de reforço da diversidade que impedem a geração de resultados homogêneos e recursos de transparência que identificam claramente conteúdo sintético. O treinamento do modelo inclui objetivos explícitos para uma representação justa entre os grupos demográficos, e a estrutura de implantação inclui monitoramento de uso e restrições para aplicações sensíveis. Essas medidas garantem o uso responsável, mantendo a utilidade criativa e prática do modelo.
Playground de IA



Conecte-se