Afuera

Charlar

desactivar

OmniHumano

Aprovechando una arquitectura de transformador de difusión y entrenamiento de múltiples condiciones, admite diversas entradas como referencias de video y produce videos personalizables de alta calidad para aplicaciones de marketing, entretenimiento y educación.

Tokens gratis de $1 para nuevos miembros

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/video/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'bytedance/omnihuman',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
      audio_url: 'https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                        import requests


def main():
    url = "https://api.ai.cc/v2/video/generations"
    payload = {
      "model": "bytedance/omnihuman",
      "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
      "audio_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()

Docs

Una API con más de 300 modelos de IA

Ahorre un 20% en costos y $1 en tokens gratis

Obtener clave API Explorar modelos

OmniHumano

Detalle del producto

OmniHumano es un modelo de IA avanzado desarrollado por ByteDance para generar vídeos realistas personalizados de cuerpo completo A partir de una sola foto y un clip de audio (voz o voz), el modelo produce videos de duración arbitraria con relaciones de aspecto y proporciones corporales personalizables, animando no solo el rostro, sino todo el cuerpo, incluyendo gestos y expresiones faciales sincronizados con precisión con el habla.

✨ Especificaciones técnicas

Sincronización: La tecnología avanzada de sincronización de labios adapta perfectamente el habla con el movimiento de la boca y la expresión facial.
Dinámica del movimiento: El transformador de difusión predice y refina el movimiento del cuerpo cuadro a cuadro para lograr una animación fluida y realista.
Entrenamiento en múltiples condiciones: Combina entradas de audio, pose y texto para una predicción de movimiento precisa.
Interfaz de usuario: Plataforma fácil de usar con funciones de carga, generación y descarga diseñadas para usuarios profesionales y ocasionales.

📊 Puntos de referencia de rendimiento

Logra una generación de video altamente realista con sincronización de labios natural, expresiones faciales y gestos de cuerpo completo.
Supera las tecnologías deepfake tradicionales que se centran principalmente en los rostros, animando todo el cuerpo.
Transiciones suaves y una alineación precisa entre el habla y el movimiento, confirmadas por exhaustivas pruebas internas en miles de muestras de video.
Admite la creación de vídeos más largos sin pérdida de sincronización ni naturalidad del movimiento.

💰 Precios de la API

$0,126/segundo

🚀 Características principales

Duración y relación de aspecto del vídeo personalizables: Permite crear vídeos de cualquier duración y cambiar el tamaño de las proporciones corporales.
Alta fidelidad y naturalidad: Entrenado con más de 18.700 horas de datos de video para dominar gestos matizados, expresiones y dinámicas de movimiento.
Compatibilidad con múltiples estilos: Funciona con imágenes de retrato, de medio cuerpo o de cuerpo completo, incluidas fotografías realistas y poses estilizadas.

💡 Casos de uso

Creación de avatares digitales realistas para marketing, entretenimiento y redes sociales.
Generación de avatares de vídeo de cuerpo completo para eventos y presentaciones virtuales.
Producción de personajes impulsados por IA para juegos, películas y producción virtual.
Mejorar el aprendizaje a distancia y la educación en línea con profesores animados.
Sincronización de doblajes y voces en off con avatares de video de sincronización de labios realistas.

Ejemplo de código

↔️ Comparación con otros modelos

vs Meta Make-A-Video: OmniHuman utiliza entradas multimodales (audio, imagen, video) para una animación precisa de cuerpo humano completo, lo que permite gestos y expresiones detalladas. Meta Make-A-Video genera videos cortos a partir de indicaciones de texto, centrándose principalmente en contenido creativo en lugar de en el movimiento humano realista.

contra Synthesia: OmniHuman produce videos realistas de cuerpo entero con sincronización labial y gestos corporales naturales, pensados para diversas aplicaciones profesionales. Synthesia se especializa en avatares de cabeza parlante con animación de la parte superior del cuerpo, optimizados para presentaciones empresariales y aprendizaje electrónico con un alcance de movimiento más limitado.

⚠️ Consideraciones éticas

Si bien OmniHuman ofrece capacidades innovadoras, existen riesgos relacionados con el uso indebido de deepfakes. Se recomienda encarecidamente utilizar pautas de uso responsable y políticas de gestión de derechos. al implementar esta tecnología.

🔗 Integración API

Accesible mediante la API de IA/ML. Para obtener documentación completa, consulte Documentación oficial de la API OmniHuman.

❓ Preguntas frecuentes (FAQ)

¿Qué arquitectura generativa permite la síntesis humana fotorrealista de OmniHuman a través de diversos atributos?

OmniHuman emplea un revolucionario marco compositivo generativo que descompone la apariencia humana en factores ortogonales, como la geometría facial, la textura de la piel, las características del cabello, la morfología corporal y las características expresivas. La arquitectura incorpora representaciones latentes desenredadas que permiten un control independiente sobre los atributos demográficos, la progresión de la edad, las expresiones emocionales y los elementos estilísticos, manteniendo al mismo tiempo la verosimilitud biológica. Los avanzados flujos de normalización y los procesos de difusión garantizan una calidad de salida fotorrealista, mientras que las restricciones éticas integradas en el proceso de entrenamiento impiden la generación de individuos identificables sin consentimiento explícito.

¿Cómo logra OmniHuman una diversidad e inclusión sin precedentes en la generación humana sintética?

El modelo incorpora una cobertura demográfica y fenotípica integral mediante datos de entrenamiento seleccionados que representan la diversidad humana global en cuanto a etnia, edad, tipología corporal, capacidades y presentaciones culturales. Las sofisticadas técnicas de aumento de datos generan variaciones continuas más allá de las categorías discretas, mientras que las restricciones de equidad en el objetivo de entrenamiento previenen sesgos de representación. El sistema incluye controles explícitos para ajustar las proporciones de representación y garantiza una calidad de generación equitativa en todos los segmentos demográficos, lo que lo hace especialmente valioso para crear contenido visual inclusivo y evitar representaciones estereotipadas.

¿Qué capacidades de generación dinámica distinguen a OmniHuman para aplicaciones interactivas?

OmniHuman permite la generación en tiempo real de representaciones humanas dinámicas con expresiones faciales, dirección de la mirada, posturas de la cabeza y lenguaje corporal controlables. La arquitectura permite una interpolación fluida entre diferentes atributos, secuencias de progresión/regresión de edad y transiciones de expresión emocional, manteniendo la coherencia de la identidad. Los mecanismos avanzados de coherencia temporal garantizan cambios fluidos de movimiento y expresión, lo que hace que el modelo sea ideal para aplicaciones interactivas como avatares virtuales, agentes conversacionales y creación de contenido dinámico, donde las representaciones humanas deben adaptarse en tiempo real a las interacciones del usuario.

¿Cómo garantiza el modelo la generación ética y previene posibles usos indebidos?

OmniHuman incorpora múltiples salvaguardas éticas, como la detección de similitud biométrica, que impide la recreación de individuos existentes; sistemas de moderación de contenido que filtran solicitudes inapropiadas; mecanismos de control de diversidad que impiden la generación de resultados homogéneos; y funciones de transparencia que identifican claramente el contenido sintético. El entrenamiento del modelo incluye objetivos explícitos para una representación justa entre los grupos demográficos, y el marco de implementación incluye la monitorización del uso y restricciones para aplicaciones sensibles. Estas medidas garantizan un uso responsable, manteniendo al mismo tiempo la utilidad creativa y práctica del modelo.

Patio de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.

Pruébalo gratis

Una API
Más de 300 modelos de IA

Ahorre un 20% en costos