



const main = async () => {
const response = await fetch('https://api.ai.cc/v2/video/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'tencent/hunyuan-video-foley',
video_url: 'https://storage.googleapis.com/falserverless/model_tests/video_models/1_video.mp4',
prompt: 'A person walks on frozen ice',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/video/generations"
payload = {
"model": "tencent/hunyuan-video-foley",
"video_url": "https://storage.googleapis.com/falserverless/model_tests/video_models/1_video.mp4",
"prompt": "A person walks on frozen ice",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

Detalhes do produto
✨ HunyuanVideo Foley: Geração de som com inteligência artificial para vídeos
HunyuanVideo Foley representa um modelo inovador de inteligência artificial desenvolvido por Equipe Hunyuan da TencentEsta solução avançada foi meticulosamente projetada para gerar Efeitos sonoros de alta qualidade e ricamente detalhados para vídeos silenciosos, aprimorando profundamente a experiência auditiva da mídia visual. Ao aproveitar o que há de mais moderno em tecnologia. difusão multimodal Graças às técnicas e ao extenso treinamento com dados em larga escala, ele sintetiza com maestria o áudio, alinhando-o precisamente tanto com o conteúdo do vídeo quanto com as descrições textuais que o acompanham.
⚙️ Especificações Técnicas
- Arquitetura: Um modelo de difusão multimodal robusto, que combina perfeitamente vídeo, texto e áudio, aprimorado ainda mais com perda de alinhamento especializada e otimização VAE de áudio.
- Taxa de amostragem de áudio: Oferece uma saída de áudio de alta fidelidade excepcional em 48 kHz.
- Componentes do modelo: Integrações DAC-PÉ Para uma reconstrução de áudio superior e um sofisticado bloco de transformação multimodal para integração coerente de vídeo e texto.
- Dados de treinamento: Treinamento extensivo em vastos conjuntos de dados, incluindo Kling-Audio-Eval, VGGSound e MovieGen-Audio, abrangendo uma ampla gama de sons, música e domínios de fala.
- Características de saída: Gera fluxos de áudio sincronizados temporalmente que estão precisamente alinhados, tanto visual quanto semanticamente, com os quadros de vídeo correspondentes.
🚀 Parâmetros de desempenho inigualáveis
Em uma série de testes rigorosos, incluindo Kling-Audio-Eval, VGGSound-Test e MovieGen-Audio-Bench, HunyuanVideo Foley demonstra consistentemente um desempenho superior., superando concorrentes líderes como FoleyCrafter, MMAudio, V-AURA e ThinkSound.

O modelo lidera consistentemente em métricas de desempenho cruciais: fidelidade de áudio, alinhamento semântico entre elementos visuais e sonoros, sincronização temporal e correspondência de distribuição.Ele supera consistentemente todos os modelos de código aberto conhecidos nessas áreas. Verificado por avaliações objetivas e avaliações humanas especializadas, o HunyuanVideo Foley demonstra desempenho robusto e estável em uma ampla gama de conteúdos de vídeo e cenários de áudio, confirmando sua confiabilidade em diversas aplicações do mundo real.

💡 Principais Características e Benefícios
- ✅ Geração automática de sondas Foley: Transforma vídeos silenciosos e textos que os acompanham em efeitos sonoros vibrantes, contextualizados e imersivos.
- 🌍 Aplicabilidade em múltiplos cenários: Altamente adaptável para diversas aplicações, incluindo criação de vídeos curtos, pós-produção profissional de filmes, anúncios dinâmicos e desenvolvimento de jogos imersivos.
- 🔊 Saída de áudio de alta fidelidade: Captura até os mínimos detalhes de áudio, desde sutis colisões de objetos até ambientes complexos e expansivos.
- ⚖️ Resposta de equalização semântica: Processa e equilibra de forma inteligente vídeos e descrições textuais para construir paisagens sonoras holísticas e perfeitamente balanceadas.
- 🏗️ Reconstrução de áudio robusta: Alimentado por sua Infraestrutura DAC-VAE, garantindo um desempenho consistentemente forte e confiável em sons gerais, peças musicais complexas e domínios de fala clara.
💰 Preços flexíveis de API
Incrivelmente acessível por apenas $ 0,0105 por segundo.
🎯 Diversas aplicações e casos de uso
- 🎥 Criação de vídeos curtos e para redes sociais: Aumente significativamente o envolvimento do espectador com efeitos sonoros dinâmicos e contextualizados.
- 🎬 Design de som para pós-produção de cinema e TV: Otimize e aprimore os fluxos de trabalho de design de som profissional, economizando tempo e recursos.
- 📈 Aprimoramento de áudio para vídeos de marketing e publicidade: Aprimore suas campanhas de vídeo com áudio cativante e persuasivo, aumentando o impacto.
- 🎮 Áudio imersivo para desenvolvimento de jogos: Crie paisagens sonoras ricas, interativas e verdadeiramente imersivas que aprimorem a experiência do jogador.
- 🗣️ Dublagem automatizada e substituição de Foley: Substitua ou gere com eficiência elementos de áudio cruciais, incluindo diálogos e efeitos sonoros, para alcance global.
💻 Integração: Exemplos de código
Exemplo de código de geração
Exemplo de código de saída
🆚 HunyuanVideo Foley vs. Concorrentes
vs Runway Gen-3: O HunyuanVideo Foley se destaca na geração de áudio altamente sincronizado e de alta fidelidade, especificamente para vídeos, priorizando o alinhamento preciso entre som e vídeo e o realismo. Em contraste, o Runway Gen-3 concentra-se principalmente na síntese visual de texto para vídeo e oferece ferramentas de edição de vídeo mais abrangentes, mas não possui recursos integrados de geração de efeitos de áudio.
vs Luma 1.6: O Foley supera significativamente o Luma 1.6 em termos de sincronização semântica audiovisual e qualidade sonora geral. O Luma 1.6 é especializado em manter a consistência espacial e temporal do vídeo, mas não oferece geração de efeitos sonoros. O HunyuanVideo Foley automatiza de forma exclusiva a criação de efeitos sonoros Foley de nível profissional.
vs Wan 2.1: Embora o Wan 2.1 seja projetado para geração de texto multilíngue para vídeo e seja geralmente mais acessível com requisitos de hardware menores, o Foley se concentra na geração de som Foley de alta qualidade e computacionalmente intensiva, feita sob medida para aplicações profissionais. É importante ressaltar que o Wan 2.1 não oferece suporte a efeitos de áudio sincronizados como os gerados com maestria pelo HunyuanVideo Foley.
❓ Perguntas frequentes (FAQ)
P1: O que é HunyuanVideo Foley?
O HunyuanVideo Foley é um modelo avançado de IA desenvolvido pela equipe Hunyuan da Tencent. Ele se especializa em gerar automaticamente efeitos sonoros de alta qualidade e perfeitamente sincronizados para vídeos sem som, com base no conteúdo visual e em quaisquer descrições de texto que o acompanhem.
Q2: Que tipos de projetos podem se beneficiar do HunyuanVideo Foley?
É extremamente versátil e ideal para uma ampla gama de aplicações, incluindo a criação de vídeos curtos e para redes sociais, pós-produção profissional de cinema e TV, aprimoramento de vídeos de marketing e publicidade e criação de áudio imersivo para desenvolvimento de jogos.
P3: Como a HunyuanVideo Foley garante um áudio de tão alta fidelidade?
O modelo utiliza uma arquitetura de difusão multimodal sofisticada, incorporando uma estrutura DAC-VAE, e é treinado em vastos conjuntos de dados. Esse design meticuloso garante uma reconstrução de áudio robusta e a capacidade de capturar detalhes sonoros sutis com uma impressionante taxa de amostragem de 48 kHz.
Q4: A saída do HunyuanVideo Foley é compatível com dispositivos móveis?
Sim, o áudio gerado e a estrutura HTML fornecida foram projetados para serem totalmente responsivos e compatíveis, garantindo uma experiência perfeita e de alta qualidade para usuários em diversos dispositivos e plataformas móveis.
Q5: Como o HunyuanVideo Foley se compara a outros modelos de IA proeminentes, como o Runway Gen-3?
O HunyuanVideo Foley se diferencia por focar especificamente na sincronização audiovisual superior e na geração de som de alta fidelidade. Enquanto modelos como o Runway Gen-3 se destacam na síntese visual de texto para vídeo, o Foley oferece uma vantagem distinta na geração integrada de efeitos de áudio e no realismo sonoro geral.
Playground de IA



Conecte-se