qwen-bg
ico máximo04
En
Afuera
ico-máximo02
Charlar
ico-máximo03
desactivar
Omnihumano
Gracias a una arquitectura de transformador de difusión y un entrenamiento multicondicional, admite diversas entradas, como referencias de vídeo, y produce vídeos personalizables de alta calidad para aplicaciones en marketing, entretenimiento y educación.
Fichas de $1 gratis para nuevos miembros
Text to Speech
                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/video/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'bytedance/omnihuman',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
      audio_url: 'https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                
                                        import requests


def main():
    url = "https://api.ai.cc/v2/video/generations"
    payload = {
      "model": "bytedance/omnihuman",
      "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
      "audio_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()
Docs

Más de 300 modelos de IA para OpenClaw y agentes de IA

Ahorra un 20% en costes y obtén fichas gratis de 1 $.
qwenmax-bg
imagen
Omnihumano

Detalles del producto

Omnihumano es un modelo de IA avanzado desarrollado por ByteDance para generar Vídeos personalizados y realistas de cuerpo completo A partir de una sola foto y un clip de audio (voz o canto), el modelo crea vídeos de duración arbitraria con proporciones y relaciones de aspecto personalizables, animando no solo el rostro, sino todo el cuerpo, incluyendo gestos y expresiones faciales sincronizadas con precisión con el habla.

✨ Especificaciones técnicas

  • Sincronización: La avanzada tecnología de sincronización labial combina con precisión el audio del habla con el movimiento de la boca y la expresión facial.
  • Dinámica del movimiento: El transformador de difusión predice y perfecciona el movimiento del cuerpo fotograma a fotograma para lograr una animación fluida y realista.
  • Entrenamiento multicondicional: Combina datos de audio, postura y texto para una predicción de movimiento precisa.
  • Interfaz de usuario: Plataforma fácil de usar con funciones de carga, generación y descarga, diseñada para usuarios profesionales y ocasionales.

📊 Puntos de referencia de rendimiento

  • Logra generar vídeos de gran realismo con sincronización labial natural, expresiones faciales y gestos corporales completos.
  • Supera a las tecnologías deepfake tradicionales, que se centran principalmente en los rostros, al animar todo el cuerpo.
  • Las transiciones fluidas y la precisa sincronización entre voz y movimiento han sido confirmadas mediante exhaustivas pruebas internas realizadas con miles de muestras de vídeo.
  • Permite crear vídeos más largos sin perder la sincronización ni la naturalidad del movimiento.

💰 Precios de API

$0,126 por segundo

🚀 Características principales

  • Duración y relación de aspecto del vídeo personalizables: Permite crear vídeos de cualquier duración y redimensionar las proporciones corporales.
  • Alta fidelidad y naturalidad: Entrenado con más de 18.700 horas de datos de vídeo para dominar gestos, expresiones y dinámicas de movimiento con matices.
  • Compatibilidad con múltiples estilos: Funciona con imágenes de retrato, de medio cuerpo o de cuerpo entero, incluyendo fotos realistas y poses estilizadas.

💡 Casos de uso

  • Creación de avatares digitales realistas para marketing, entretenimiento y redes sociales.
  • Generación de avatares de vídeo de cuerpo completo para eventos y presentaciones virtuales.
  • Creación de personajes impulsados ​​por inteligencia artificial para videojuegos, películas y producciones virtuales.
  • Mejorando el aprendizaje a distancia y la educación en línea con profesores animados.
  • Sincronización de doblaje y locución con avatares de vídeo de sincronización labial realistas.

💻 Ejemplo de código

↔️ Comparación con otros modelos

vs Meta Make-A-Video: OmniHuman utiliza entradas multimodales (audio, imagen, vídeo) para una animación humana completa y precisa, lo que permite gestos y expresiones detalladas. Meta Make-A-Video genera vídeos cortos a partir de indicaciones de texto, centrándose principalmente en el contenido creativo en lugar del movimiento humano realista.

vs Synthesia: OmniHuman produce vídeos realistas de cuerpo completo con sincronización labial y gestos corporales naturales, dirigidos a diversas aplicaciones profesionales. Synthesia se especializa en avatares de cabeza parlante con animación de la parte superior del cuerpo, optimizados para presentaciones de negocios y e-learning con un rango de movimiento más limitado.

⚠️ Consideraciones éticas

Si bien OmniHuman ofrece capacidades innovadoras, existen riesgos relacionados con el uso indebido de la tecnología deepfake. Se recomienda encarecidamente seguir las directrices de uso responsable y las políticas de gestión de derechos. al implementar esta tecnología.

🔗 Integración de API

Accesible a través de la API de IA/ML. Para obtener documentación completa, consulte la Documentación oficial de la API OmniHuman.

❓ Preguntas frecuentes (FAQ)

¿Qué arquitectura generativa permite la síntesis fotorrealista del cuerpo humano de OmniHuman a través de diversos atributos?

OmniHuman emplea un revolucionario marco generativo compositivo que descompone la apariencia humana en factores ortogonales, incluyendo la geometría facial, la textura de la piel, las propiedades del cabello, la morfología corporal y las características expresivas. Su arquitectura presenta representaciones latentes independientes que permiten un control autónomo sobre los atributos demográficos, la progresión de la edad, las expresiones emocionales y los elementos estilísticos, manteniendo la plausibilidad biológica. Los avanzados procesos de normalización y difusión garantizan una calidad de salida fotorrealista, mientras que las restricciones éticas integradas en el proceso de entrenamiento impiden la generación de individuos identificables sin consentimiento explícito.

¿Cómo logra OmniHuman una diversidad e inclusión sin precedentes en la generación de humanos sintéticos?

El modelo incorpora una cobertura demográfica y fenotípica integral mediante datos de entrenamiento seleccionados que representan la diversidad humana global en cuanto a etnia, edad, complexión, capacidades y expresiones culturales. Técnicas sofisticadas de aumento de datos generan variaciones continuas que van más allá de las categorías discretas, mientras que las restricciones de equidad en el objetivo de entrenamiento evitan sesgos de representación. El sistema incluye controles explícitos para ajustar las proporciones de representación y garantiza una calidad de generación equitativa en todos los segmentos demográficos, lo que lo hace especialmente valioso para crear contenido visual inclusivo y evitar representaciones estereotipadas.

¿Qué capacidades de generación dinámica distinguen a OmniHuman para aplicaciones interactivas?

OmniHuman permite la generación en tiempo real de representaciones humanas dinámicas con expresiones faciales, dirección de la mirada, postura de la cabeza y lenguaje corporal controlables. Su arquitectura posibilita una interpolación fluida entre diferentes atributos, secuencias de progresión/regresión de edad y transiciones de expresión emocional, manteniendo la coherencia de la identidad. Los avanzados mecanismos de coherencia temporal garantizan cambios de movimiento y expresión suaves, lo que hace que el modelo sea idóneo para aplicaciones interactivas como avatares virtuales, agentes conversacionales y creación de contenido dinámico, donde las representaciones humanas deben adaptarse en tiempo real a las interacciones del usuario.

¿Cómo garantiza el modelo la generación ética y previene un posible uso indebido?

OmniHuman incorpora múltiples medidas de seguridad ética, como la detección de similitud biométrica para evitar la recreación de individuos existentes, sistemas de moderación de contenido que filtran las solicitudes inapropiadas, mecanismos de control de la diversidad que impiden la generación de resultados homogéneos y funciones de transparencia que identifican claramente el contenido sintético. El entrenamiento del modelo incluye objetivos explícitos para una representación equitativa de los distintos grupos demográficos, y el marco de implementación contempla la monitorización del uso y restricciones para aplicaciones sensibles. Estas medidas garantizan un uso responsable, manteniendo al mismo tiempo la utilidad creativa y práctica del modelo.

Campo de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos