



const main = async () => {
const response = await fetch('https://api.ai.cc/v2/video/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'tencent/hunyuan-video-foley',
video_url: 'https://storage.googleapis.com/falserverless/model_tests/video_models/1_video.mp4',
prompt: 'A person walks on frozen ice',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/video/generations"
payload = {
"model": "tencent/hunyuan-video-foley",
"video_url": "https://storage.googleapis.com/falserverless/model_tests/video_models/1_video.mp4",
"prompt": "A person walks on frozen ice",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

Detalles del producto
✨ HunyuanVideo Foley: Generación de sonido con IA para vídeos
HunyuanVideo Foley representa un modelo de inteligencia artificial innovador desarrollado por El equipo de Hunyuan de TencentEsta solución avanzada está meticulosamente diseñada para generar efectos de sonido de alta calidad y gran detalle para vídeos silenciosos, mejorando así profundamente la experiencia auditiva de los medios visuales. Aprovechando la tecnología de vanguardia difusión multimodal Gracias a técnicas avanzadas y un extenso entrenamiento con datos a gran escala, sintetiza de forma experta audio que se alinea con precisión tanto con el contenido de vídeo como con las descripciones textuales que lo acompañan.
⚙️ Especificaciones técnicas
- Arquitectura: Un modelo de difusión multimodal robusto, que combina a la perfección modalidades de vídeo, texto y audio, mejorado además con una pérdida de alineación especializada y optimización VAE de audio.
- Frecuencia de muestreo de audio: Ofrece una excepcional salida de audio de alta fidelidad a 48 kHz.
- Componentes del modelo: Integra PIE DAC para una reconstrucción de audio superior y un sofisticado bloque transformador multimodal para la integración conjunta y coherente de vídeo y texto.
- Datos de entrenamiento: Amplia formación en vastos conjuntos de datos, incluidos Kling-Audio-Eval, VGGSound y MovieGen-Audio, que abarcan una extensa gama de sonidos, música y dominios del habla.
- Características de salida: Genera secuencias de audio sincronizadas temporalmente que están alineadas con precisión, tanto visual como semánticamente, con los fotogramas de vídeo correspondientes.
🚀 Rendimiento sin igual
A través de un conjunto de pruebas de referencia rigurosas, que incluyen Kling-Audio-Eval, VGGSound-Test y MovieGen-Audio-Bench, HunyuanVideo Foley demuestra un rendimiento superior de forma constante.Superando a competidores líderes como FoleyCrafter, MMAudio, V-AURA y ThinkSound.

El modelo lidera sistemáticamente en métricas de rendimiento cruciales: fidelidad de audio, alineación semántica entre imágenes y sonido, sincronización temporal y coincidencia de distribución. Supera consistentemente a todos los modelos de código abierto conocidos en estas áreas. Verificado tanto por evaluaciones objetivas como por evaluaciones humanas de expertos, HunyuanVideo Foley exhibe Rendimiento robusto y estable en una amplia gama de contenidos de vídeo y escenarios de audio, lo que confirma su fiabilidad en diversas aplicaciones del mundo real.

💡 Características y beneficios clave
- ✅ Generación automática de sondas Foley: Transforma vídeos sin sonido y el texto que los acompaña en efectos de sonido vibrantes, contextualizados e inmersivos.
- 🌍 Aplicabilidad en múltiples escenarios: Altamente adaptable para diversas aplicaciones, incluyendo la creación de vídeos cortos, la postproducción cinematográfica profesional, anuncios dinámicos y el desarrollo de juegos inmersivos.
- 🔊 Salida de audio de alta fidelidad: Captura hasta los detalles de audio más mínimos, desde sutiles colisiones de objetos hasta ambientes ambientales complejos y expansivos.
- ⚖️ Respuesta de ecualización semántica: Procesa y equilibra de forma inteligente las descripciones de vídeo y texto de entrada para construir paisajes sonoros holísticos y perfectamente equilibrados.
- 🏗️ Reconstrucción de audio robusta: Impulsado por su Estructura troncal DAC-VAE, lo que garantiza un rendimiento sólido y fiable de forma constante en sonidos generales, piezas musicales complejas y dominios de habla clara.
💰 Precios de API flexibles
Sorprendentemente asequible a tan solo... $0.0105 por segundo.
🎯 Diversas aplicaciones y casos de uso
- 🎥 Creación de vídeos cortos y para redes sociales: Mejora significativamente la interacción con el espectador mediante efectos de sonido dinámicos y ricos en contexto.
- 🎬 Diseño de sonido para postproducción de cine y televisión: Optimiza y mejora los flujos de trabajo de diseño de sonido profesional, ahorrando tiempo y recursos.
- 📈 Mejora del audio de vídeos para marketing y publicidad: Potencia tus campañas de vídeo con un audio cautivador y persuasivo, aumentando así su impacto.
- 🎮 Audio inmersivo para el desarrollo de videojuegos: Crea paisajes sonoros ricos, interactivos y verdaderamente inmersivos que mejoren la experiencia del jugador.
- 🗣️ Doblaje automatizado y reemplazo de efectos de sonido: Sustituya o genere de forma eficiente elementos de audio cruciales, como diálogos y efectos de sonido, para lograr un alcance global.
💻 Integración: Ejemplos de código
Ejemplo de código de generación
Ejemplo de código de salida
🆚 HunyuanVideo Foley vs. Competidores
vs Runway Gen-3: HunyuanVideo Foley destaca por generar audio de alta fidelidad y gran sincronización específicamente para vídeos, priorizando la alineación precisa entre sonido y vídeo, así como el realismo. En cambio, Runway Gen-3 se centra principalmente en la síntesis visual de texto a vídeo y ofrece herramientas de edición de vídeo más amplias, pero no incluye capacidades integradas para la generación de efectos de audio.
vs Luma 1.6: Foley supera significativamente a Luma 1.6 en cuanto a sincronización semántica audiovisual y calidad de sonido general. Luma 1.6 se especializa en mantener la coherencia espacial y temporal del vídeo, pero no ofrece generación de efectos de sonido. HunyuanVideo Foley automatiza de forma exclusiva la creación de sonido Foley de calidad profesional.
vs Wan 2.1: Si bien Wan 2.1 está diseñado para la generación de texto a video multilingüe y, por lo general, es más accesible con menores requisitos de hardware, Foley se centra en la generación de sonido Foley de alta gama y con gran capacidad de procesamiento, adaptada a aplicaciones profesionales. Es importante destacar que Wan 2.1 no admite efectos de audio sincronizados como los que genera con maestría HunyuanVideo Foley.
❓ Preguntas frecuentes (FAQ)
P1: ¿Qué es HunyuanVideo Foley?
HunyuanVideo Foley es un modelo avanzado de IA desarrollado por el equipo Hunyuan de Tencent. Se especializa en generar automáticamente efectos de sonido de alta calidad y perfectamente sincronizados para vídeos sin sonido, basándose en el contenido visual y las descripciones de texto que lo acompañan.
P2: ¿Qué tipos de proyectos pueden beneficiarse de HunyuanVideo Foley?
Es muy versátil e ideal para una amplia gama de aplicaciones, incluyendo la creación de vídeos cortos y para redes sociales, la postproducción profesional de cine y televisión, la mejora de vídeos de marketing y publicidad, y la creación de audio inmersivo para el desarrollo de videojuegos.
P3: ¿Cómo garantiza HunyuanVideo Foley un audio de tan alta fidelidad?
El modelo aprovecha una sofisticada arquitectura de difusión multimodal, que incorpora una estructura base DAC-VAE, y se entrena con vastos conjuntos de datos. Este diseño meticuloso garantiza una reconstrucción de audio robusta y la capacidad de capturar detalles sonoros precisos a una impresionante frecuencia de muestreo de 48 kHz.
P4: ¿La salida de HunyuanVideo Foley es compatible con dispositivos móviles?
Sí, el audio generado y la estructura HTML proporcionada están diseñados para ser totalmente adaptables y compatibles, lo que garantiza una experiencia fluida y de alta calidad para los usuarios en diversos dispositivos y plataformas móviles.
P5: ¿Cómo se compara HunyuanVideo Foley con otros modelos de IA destacados como Runway Gen-3?
HunyuanVideo Foley se distingue por centrarse específicamente en una sincronización audiovisual superior y una generación de sonido de alta fidelidad. Si bien modelos como Runway Gen-3 sobresalen en la síntesis visual de texto a vídeo, Foley ofrece una clara ventaja en la generación integrada de efectos de audio y un realismo sonoro excepcional.
Campo de juegos de IA



Acceso