Dans

Dehors

Chat

désactiver

OmniHumain

S'appuyant sur une architecture de transformateur de diffusion et un entraînement multiconditionnel, il prend en charge diverses entrées telles que des références vidéo et produit des vidéos personnalisables de haute qualité pour des applications dans le marketing, le divertissement et l'éducation.

Jetons gratuits de 1 $ pour les nouveaux membres

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/video/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'bytedance/omnihuman',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
      audio_url: 'https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                        import requests


def main():
    url = "https://api.ai.cc/v2/video/generations"
    payload = {
      "model": "bytedance/omnihuman",
      "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
      "audio_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()

Docs

Une seule API pour plus de 300 modèles d'IA

Économisez 20 % sur les coûts et recevez des jetons gratuits d'une valeur de 1 $.

Obtenir la clé API Explorer les modèles

OmniHumain

Détails du produit

OmniHumain est un modèle d'IA avancé développé par ByteDance pour générer vidéos personnalisées réalistes du corps entier À partir d'une simple photo et d'un extrait audio (voix ou chant), le modèle génère des vidéos de durée arbitraire, aux formats d'image et proportions corporelles personnalisables. Il anime non seulement le visage, mais aussi le corps entier, y compris les gestes et les expressions faciales, le tout synchronisé avec la parole.

✨ Spécifications techniques

Synchronisation: Une technologie de synchronisation labiale avancée permet d'associer précisément la parole audio aux mouvements de la bouche et aux expressions faciales.
Dynamique du mouvement : Le transformateur de diffusion prédit et affine les mouvements du corps image par image pour une animation fluide et réaliste.
Entraînement multiconditionnel : Combine les entrées audio, de pose et textuelles pour une prédiction précise des mouvements.
Interface utilisateur : Plateforme facile à utiliser avec des fonctionnalités de chargement, de génération et de téléchargement conçues pour les utilisateurs professionnels et occasionnels.

📊 Indicateurs de performance

Permet de générer des vidéos très réalistes avec une synchronisation labiale naturelle, des expressions faciales et des gestes corporels complets.
Surpasse les technologies deepfake traditionnelles qui se concentrent principalement sur les visages, en animant le corps entier.
Des transitions fluides et un alignement précis de la parole et des mouvements ont été confirmés par des tests internes approfondis sur des milliers d'échantillons vidéo.
Permet la création de vidéos plus longues sans perte de synchronisation ni de naturel du mouvement.

💰 Tarification de l'API

0,126 $/seconde

🚀 Fonctionnalités clés

Longueur et format vidéo personnalisables : Permet de créer des vidéos de toute durée et de modifier les proportions du corps.
Haute fidélité et naturel : Entraîné sur plus de 18 700 heures de données vidéo pour maîtriser les gestes nuancés, les expressions et la dynamique des mouvements.
Compatibilité multi-styles : Travaille avec des images de portrait, de buste ou de corps entier, y compris des photos réalistes et des poses stylisées.

💡 Cas d'utilisation

Création d'avatars numériques réalistes pour le marketing, le divertissement et les réseaux sociaux.
Génération d'avatars vidéo en pied pour les événements et présentations virtuels.
Création de personnages pilotés par IA pour les jeux vidéo, les films et la production virtuelle.
Améliorer l'apprentissage à distance et l'enseignement en ligne grâce à des conférenciers animés.
Synchronisation du doublage et des voix off avec des avatars vidéo à synchronisation labiale réaliste.

💻 Exemple de code

↔️ Comparaison avec d'autres modèles

vs Meta Make-A-Video : OmniHuman utilise des entrées multimodales (audio, image, vidéo) pour une animation corporelle complète et précise, permettant des gestes et des expressions détaillés. Meta Make-A-Video génère de courtes vidéos à partir de commandes textuelles, privilégiant le contenu créatif plutôt que le réalisme des mouvements humains.

vs Synthesia : OmniHuman produit des vidéos réalistes, complètes et animées, avec une synchronisation labiale et une gestuelle naturelles, destinées à diverses applications professionnelles. Synthesia se spécialise dans les avatars parlants avec animation du haut du corps, optimisés pour les présentations d'entreprise et l'e-learning, avec une amplitude de mouvement plus limitée.

⚠️ Considérations éthiques

Bien qu'OmniHuman offre des fonctionnalités révolutionnaires, il existe des risques liés à l'utilisation abusive des deepfakes. Les directives d'utilisation responsable et les politiques de gestion des droits sont fortement recommandées. lors du déploiement de cette technologie.

🔗 Intégration API

Accessible via une API d'IA/ML. Pour une documentation complète, veuillez consulter le Documentation officielle de l'API OmniHuman.

❓ Foire aux questions (FAQ)

Quelle architecture générative permet à OmniHuman de réaliser une synthèse humaine photoréaliste à travers divers attributs ?

OmniHuman utilise un cadre génératif compositionnel révolutionnaire qui décompose l'apparence humaine en facteurs orthogonaux, notamment la géométrie du visage, la texture de la peau, les propriétés des cheveux, la morphologie corporelle et les caractéristiques expressives. Son architecture repose sur des représentations latentes distinctes permettant un contrôle indépendant des attributs démographiques, de la progression de l'âge, des expressions émotionnelles et des éléments stylistiques, tout en préservant la plausibilité biologique. Des flux de normalisation et des processus de diffusion avancés garantissent une qualité de rendu photoréaliste, tandis que des contraintes éthiques intégrées au processus d'apprentissage empêchent la génération d'individus identifiables sans consentement explicite.

Comment OmniHuman parvient-il à une diversité et une inclusion sans précédent dans la génération d'humains synthétiques ?

Le modèle intègre une couverture démographique et phénotypique exhaustive grâce à des données d'entraînement soigneusement sélectionnées, représentatives de la diversité humaine mondiale en termes d'origine ethnique, d'âge, de morphologie, de capacités et d'expressions culturelles. Des techniques sophistiquées d'augmentation des données génèrent des variations continues au-delà des catégories discrètes, tandis que des contraintes d'équité dans l'objectif d'entraînement préviennent les biais de représentation. Le système comprend des commandes explicites permettant d'ajuster les proportions de représentation et garantit une qualité de génération équitable pour tous les segments démographiques, ce qui le rend particulièrement précieux pour la création de contenus visuels inclusifs et la prévention des représentations stéréotypées.

Quelles sont les capacités de génération dynamique qui distinguent OmniHuman pour les applications interactives ?

OmniHuman permet la génération en temps réel de représentations humaines dynamiques avec des expressions faciales, une direction du regard, des positions de la tête et un langage corporel contrôlables. Son architecture assure une interpolation fluide entre différents attributs, des séquences de progression/régression d'âge et des transitions d'expressions émotionnelles, tout en préservant la cohérence de l'identité. Des mécanismes avancés de cohérence temporelle garantissent des mouvements et des changements d'expression fluides, rendant le modèle adapté aux applications interactives telles que les avatars virtuels, les agents conversationnels et la création de contenu dynamique, où les représentations humaines doivent s'adapter en temps réel aux interactions de l'utilisateur.

Comment ce modèle garantit-il une production éthique et prévient-il les éventuels abus ?

OmniHuman intègre de multiples garanties éthiques, notamment la détection de similarités biométriques empêchant la reconstitution d'individus existants, des systèmes de modération de contenu filtrant les requêtes inappropriées, des mécanismes de promotion de la diversité empêchant la génération de résultats homogènes et des fonctionnalités de transparence identifiant clairement le contenu synthétique. L'entraînement du modèle inclut des objectifs explicites de représentation équitable des différents groupes démographiques, et le cadre de déploiement prévoit une surveillance de l'utilisation et des restrictions pour les applications sensibles. Ces mesures garantissent une utilisation responsable tout en préservant l'utilité créative et pratique du modèle.

Terrain de jeu de l'IA

Testez tous les modèles d'API dans l'environnement de test avant de les intégrer. Nous proposons plus de 300 modèles à intégrer à votre application.

Essai gratuit

Une API
Plus de 300 modèles d'IA

Économisez 20 % sur vos coûts