Fora

Bater papo

desativar

Onihumano

Aproveitando uma arquitetura de transformador de difusão e treinamento multi-condicional, ele suporta diversas entradas, como referências de vídeo, e produz vídeos personalizáveis de alta qualidade para aplicações em marketing, entretenimento e educação.

Tokens de $1 grátis para novos membros

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/video/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'bytedance/omnihuman',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
      audio_url: 'https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                        import requests


def main():
    url = "https://api.ai.cc/v2/video/generations"
    payload = {
      "model": "bytedance/omnihuman",
      "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
      "audio_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()

Docs

Uma API com mais de 300 modelos de IA

Economize 20% nos custos e ganhe tokens grátis de $1.

Obter chave de API Explorar modelos

Onihumano

Detalhes do produto

Onihumano é um modelo avançado de IA desenvolvido pela ByteDance para gerar vídeos personalizados e realistas de corpo inteiro A partir de uma única foto e um clipe de áudio (fala ou voz), o modelo produz vídeos de duração arbitrária com proporções e proporções corporais personalizáveis, animando não apenas o rosto, mas o corpo inteiro, incluindo gestos e expressões faciais sincronizados com precisão à fala.

✨ Especificações Técnicas

Sincronização: A tecnologia avançada de sincronização labial combina com precisão a fala em áudio com os movimentos da boca e as expressões faciais.
Dinâmica do Movimento: O transformador de difusão prevê e refina o movimento do corpo quadro a quadro para uma animação suave e realista.
Treinamento multicondicional: Combina entradas de áudio, pose e texto para uma previsão de movimento precisa.
Interface do usuário: Plataforma fácil de usar com recursos de upload, geração e download, projetada para usuários profissionais e casuais.

📊 Indicadores de desempenho

Gera vídeos altamente realistas com sincronização labial natural, expressões faciais e gestos corporais completos.
Supera as tecnologias deepfake tradicionais que se concentram principalmente em rostos, animando o corpo inteiro.
Transições suaves e alinhamento preciso entre fala e movimento foram confirmados por extensos testes internos em milhares de amostras de vídeo.
Permite a criação de vídeos mais longos sem perda de sincronização ou naturalidade de movimento.

💰 Preços da API

US$ 0,126 por segundo

🚀 Principais Características

Duração e proporção de tela do vídeo personalizáveis: Permite criar vídeos de qualquer duração e redimensionar as proporções do corpo.
Alta fidelidade e naturalidade: Treinado com mais de 18.700 horas de dados de vídeo para dominar gestos, expressões e dinâmicas de movimento sutis.
Compatibilidade com vários estilos: Trabalha com retratos, imagens de meio corpo ou corpo inteiro, incluindo fotos realistas e poses estilizadas.

💡 Casos de uso

Criação de avatares digitais realistas para marketing, entretenimento e mídias sociais.
Geração de avatares de vídeo de corpo inteiro para eventos e apresentações virtuais.
Criação de personagens controlados por inteligência artificial para jogos, filmes e produção virtual.
Aprimorando o ensino a distância e a educação online com palestrantes animados.
Sincronização de dublagem e narração com avatares de vídeo realistas com sincronização labial.

💻 Exemplo de código

↔️ Comparação com outros modelos

vs Meta Make-A-Video: O OmniHuman utiliza entradas multimodais (áudio, imagem e vídeo) para animação humana precisa de corpo inteiro, permitindo gestos e expressões detalhadas. O Meta Make-A-Video gera vídeos curtos a partir de instruções de texto, com foco principal em conteúdo criativo em vez de movimentos humanos realistas.

vs Synthesia: A OmniHuman produz vídeos realistas de corpo inteiro, com sincronização labial e gestos corporais naturais, voltados para diversas aplicações profissionais. A Synthesia se especializa em avatares de cabeça falante com animação da parte superior do corpo, otimizados para apresentações corporativas e e-learning com escopo de movimento mais limitado.

⚠️ Considerações Éticas

Embora o OmniHuman ofereça recursos inovadores, existem riscos relacionados ao uso indevido de deepfakes. É fortemente recomendada a adoção de diretrizes de uso responsável e políticas de gestão de direitos. ao implementar essa tecnologia.

🔗 Integração de API

Acessível via API de IA/ML. Para obter documentação completa, consulte o Documentação oficial da API OmniHuman.

❓ Perguntas frequentes (FAQ)

Que arquitetura generativa permite a síntese fotorrealista de características humanas pelo OmniHuman, abrangendo diversos atributos?

O OmniHuman emprega uma estrutura generativa composicional revolucionária que decompõe a aparência humana em fatores ortogonais, incluindo geometria facial, textura da pele, propriedades do cabelo, morfologia corporal e características expressivas. A arquitetura apresenta representações latentes independentes que permitem o controle sobre atributos demográficos, progressão da idade, expressões emocionais e elementos estilísticos, mantendo a plausibilidade biológica. Fluxos de normalização avançados e processos de difusão garantem uma qualidade de saída fotorrealista, enquanto restrições éticas incorporadas ao processo de treinamento impedem a geração de indivíduos identificáveis sem consentimento explícito.

Como a OmniHuman alcança uma diversidade e inclusão sem precedentes na geração de humanos sintéticos?

O modelo incorpora uma cobertura demográfica e fenotípica abrangente por meio de dados de treinamento selecionados, representando a diversidade humana global em termos de etnia, idade, tipo físico, habilidades e expressões culturais. Técnicas sofisticadas de aumento de dados geram variações contínuas além de categorias discretas, enquanto restrições de equidade no objetivo de treinamento previnem vieses de representação. O sistema inclui controles explícitos para ajustar as proporções de representação e garante uma qualidade de geração equitativa em todos os segmentos demográficos, tornando-o particularmente valioso para a criação de conteúdo visual inclusivo e para evitar representações estereotipadas.

Quais são as capacidades de geração dinâmica que diferenciam o OmniHuman para aplicações interativas?

O OmniHuman suporta a geração em tempo real de representações humanas dinâmicas com expressões faciais, direção do olhar, poses da cabeça e linguagem corporal controláveis. A arquitetura permite a interpolação perfeita entre diferentes atributos, sequências de progressão/regressão de idade e transições de expressões emocionais, mantendo a consistência da identidade. Mecanismos avançados de coerência temporal garantem movimentos e mudanças de expressão suaves, tornando o modelo adequado para aplicações interativas como avatares virtuais, agentes conversacionais e criação de conteúdo dinâmico, onde as representações humanas precisam se adaptar em tempo real às interações do usuário.

Como o modelo garante a geração ética e previne possíveis usos indevidos?

O OmniHuman incorpora diversas salvaguardas éticas, incluindo detecção de similaridade biométrica que impede a recriação de indivíduos existentes, sistemas de moderação de conteúdo que filtram solicitações inapropriadas, mecanismos de reforço da diversidade que impedem a geração de resultados homogêneos e recursos de transparência que identificam claramente conteúdo sintético. O treinamento do modelo inclui objetivos explícitos para uma representação justa entre os grupos demográficos, e a estrutura de implantação inclui monitoramento de uso e restrições para aplicações sensíveis. Essas medidas garantem o uso responsável, mantendo a utilidade criativa e prática do modelo.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Experimente grátis

Uma API
Mais de 300 modelos de IA

Economize 20% nos custos