



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
try {
const response = await api.post('/tts', {
model: 'microsoft/vibevoice-1.5b',
script: 'Speaker 0: Hello there! Speaker 1: Hi, how are you?',
speakers: [
{ preset: 'Frank [EN]' }
]
});
const responseData = response.data;
const audioUrl = responseData.audio.url;
const fileName = responseData.audio.file_name;
const audioResponse = await api.get(audioUrl, { responseType: 'stream' });
const dist = path.resolve(__dirname, fileName);
const writeStream = fs.createWriteStream(dist);
audioResponse.data.pipe(writeStream);
writeStream.on('close', () => {
console.log('Audio saved to:', dist);
console.log(`Duration: ${responseData.duration} seconds`);
console.log(`Sample rate: ${responseData.sample_rate} Hz`);
});
} catch (error) {
console.error('Error:', error.message);
}
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "microsoft/vibevoice-1.5b",
"script": "Speaker 0: Hello there! Speaker 1: Hi, how are you?",
"speakers": [
{ "preset": "Frank [EN]" }
]
}
try:
response = requests.post(url, headers=headers, json=payload)
response.raise_for_status() # Raise an exception for bad status codes
response_data = response.json()
audio_url = response_data["audio"]["url"]
file_name = response_data["audio"]["file_name"]
audio_response = requests.get(audio_url, stream=True)
audio_response.raise_for_status()
dist = os.path.join(os.path.dirname(__file__), file_name)
with open(dist, "wb") as write_stream:
for chunk in audio_response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
print(f"Duration: {response_data['duration']} seconds")
print(f"Sample rate: {response_data['sample_rate']} Hz")
except requests.exceptions.RequestException as e:
print(f"Error making request: {e}")
except Exception as e:
print(f"Error: {e}")
main()

Detalhes do produto
VibeVoice 1.5B destaca-se como algo inovador. modelo de síntese de voz por IA, meticulosamente projetado para entregar fala natural e de alta qualidadePossui características excepcionais. modulação expressiva do tomAdaptando-se perfeitamente a diversos idiomas e contextos, esta solução altamente escalável e versátil capacita criadores de conteúdo, desenvolvedores e empresas, fornecendo recursos avançados de geração de voz para uma ampla gama de aplicações, incluindo assistentes virtuais, audiolivros, jogos e produção multimídia.
✨ Principais recursos e versatilidade de entrada
O VibeVoice 1.5B processa com maestria diversos tipos de entrada para produzir uma fala realista com prosódia refinada, garantindo adaptabilidade a qualquer projeto. Ele suporta:
- ✓ Texto simples: Para geração de fala simples e direta.
- ✓ SSML (Linguagem de Marcação de Síntese de Voz): Permitir um controle preciso sobre atributos da fala, como pausas, pronúncia e entonação.
- ✓ Etiquetas emocionais/de estilo: Infundir emoções específicas e estilos de fala distintos no resultado final.
Este modelo lida habilmente com diálogos conversacionais, narração e vozes dos personagens, proporcionando uma entonação dinâmica que faz com que cada fala soe genuinamente humana.
🚀 Desempenho e qualidade de produção incomparáveis
- ⏳ Latência: Otimizado para geração de voz quase em tempo realO VibeVoice 1.5B é perfeitamente adequado para aplicações interativas como chatbots e transmissões ao vivo, garantindo uma comunicação imediata e fluida.
- 🎧 Qualidade de áudio: Produz consistentemente áudio com qualidade de estúdioCaracteriza-se por uma articulação clara, entonação natural e transições perfeitas. Isso a torna ideal tanto para aplicações profissionais quanto para aplicações voltadas ao consumidor que exigem fidelidade de áudio superior.
- 💬 Expressividade: O modelo proporciona controle granular sobre tom emocional, ênfase, ritmo e adaptações de sotaqueEssa flexibilidade permite que os usuários alinhem perfeitamente a saída de voz com requisitos específicos de narrativa e necessidades de marca.
🧠 Arquitetura Técnica Avançada
O VibeVoice 1.5B é construído sobre uma base sofisticada. Infraestrutura neural de conversão de texto em fala (TTS) baseada em transformadoresEle incorpora módulos avançados de modelagem de prosódia, aproveitando mecanismos de autoatenção multicamadas e camadas convolucionais especificamente otimizadas para extração de características acústicas temporais. O desempenho excepcional do modelo é resultado de um extenso treinamento em um vasto conjunto de gravações de fala multilíngue e conjuntos de dados de fala emocional ricamente anotados, garantindo uma generalização robusta para uma ampla gama de falantes e estilos.
💲 Preços da API
- 💰 US$ 0,042 por minuto gerado
⭐ Principais funcionalidades em resumo
- 📝 Processamento de entrada multimodal: Aceita diversos formatos de entrada, incluindo conteúdo textual enriquecido com nuances emocionais e instruções precisas em nível fonêmico, oferecendo controle incomparável sobre a voz sintética.
- 🎧 Personalização da Voz Expressiva: Permite o ajuste detalhado de atributos críticos da fala, como tom, velocidade da fala, nuances emocionais e variações sutis na identidade do falante, possibilitando um alinhamento perfeito da voz com sua visão criativa.
- 🌐 Suporte multilíngue e multidialetal: Oferece resultados de voz consistentemente naturais em diversos idiomas e dialetos regionais, mantendo alta fidelidade na qualidade da voz para um alcance verdadeiramente global.
💡 Diversas Aplicações
- 👤 Assistentes Virtuais e Chatbots: Facilitar interações envolventes e semelhantes às humanas, aprimorando o suporte ao cliente e a companhia digital.
- 📚 Narração de audiolivros e podcasts: Crie performances vocais dinâmicas com diferenciação de personagens e emoções marcantes, dando vida às narrativas de forma vívida.
- 🎮 Jogos e Animação: Crie vozes de personagens realistas com ampla flexibilidade de estilo, contribuindo para experiências de narrativa e jogabilidade profundamente imersivas.
- 📖 Ferramentas de acessibilidade: Fornecemos vozes de alta qualidade para leitores de tela com expressividade personalizável, melhorando significativamente a experiência do usuário para todos.
- 🌎 Localização de conteúdo: Permita a dublagem de voz rápida e natural em vários idiomas, facilitando a distribuição global de conteúdo e o alcance de um público mais amplo.
📝 Exemplo de código
// Exemplo de uso da API VibeVoice 1.5B
const textToSynthesize = "Olá, aqui é o VibeVoice 1.5B falando!";
const voiceParams = {
modelo: "microsoft/vibevoice-1.5b",
idioma: "en-US",
emoção: "alegre"
};
VibeVoice.sintetizar(textoParaSintetizar, parâmetrosDeVoz)
.then(audioUrl => console.log("Áudio gerado:", audioUrl))
.catch(error => console.error("Erro ao sintetizar a voz:", error));
📈 VibeVoice 1,5 bilhão vs. Concorrentes
- vs. Eleven Music: Enquanto a Eleven Music se especializa na geração de música orientada por IA com recursos de composição complexos, o VibeVoice 1.5B se destaca por sua excelência em síntese de voz natural e expressiva, especificamente para áudio falado.
- vs. Suno AI: Em comparação com o foco da Suno AI em recursos de geração de música, o principal ponto forte do VibeVoice 1.5B reside em sua capacidade de... Qualidade de fala superior, controle prosódico incomparável, e entrega de voz multilíngue, meticulosamente concebido para contextos de conversação, em vez de conteúdo musical.
- vs. Compartilhar: A Udio geralmente se concentra em produções de áudio mais simples, com síntese de voz limitada. A VibeVoice, por outro lado, oferece significativamente mais recursos. maior fidelidade, variação emocional detalhadae um suporte de aplicação mais amplo, adaptado aos requisitos de geração de voz profissional.
- vs. Sandbox do MusicAI: O MusicAI Sandbox é voltado principalmente para a experimentação musical criativa. Em nítido contraste, o VibeVoice 1.5B prioriza... saída de voz falada realista, oferecendo opções avançadas de ajuste fino para uma ampla gama de características e estilos vocais.
- vs. AIMusic.fm: A AIMusic.fm automatiza em grande parte a criação musical, com opções de personalização limitadas. A VibeVoice fornece controle granular sobre os parâmetros da fala e ampla adaptabilidade de estilo, especificamente adaptada para projetos centrados na fala.
☝ Perguntas frequentes (FAQs)
1. Qual arquitetura de vocoder neural possibilita a síntese de fala expressiva do VibeVoice 1.5B?
O VibeVoice 1.5B utiliza um arquitetura de difusão eficiente com correspondência de fluxo, meticulosamente otimizada para expressividade emocional e qualidade vocal em sua escala de 1,5 bilhão de parâmetros. Essa arquitetura apresenta geração hierárquica de forma de onda que captura tanto padrões macroprosódicos quanto detalhes de microentonação, juntamente com normalização adaptativa ao estilo para preservar a identidade do falante em diversos estados emocionais.
2. Como o modelo consegue expressar emoções de forma expressiva dentro de seu orçamento de parâmetros compacto?
O modelo implementa uma modelagem de prosódia emocional altamente eficiente através de incorporações de emoções destiladasEsses recursos capturam os correlatos acústicos de diferentes estados emocionais sem exigir uma sobrecarga significativa de parâmetros. Isso, combinado com extratores de características emocionais compartilhadas e redes otimizadas de tom/tempo, permite uma gama emocional impressionante.
3. Quais são as funcionalidades de personalização de voz oferecidas pelo VibeVoice 1.5B?
O VibeVoice 1.5B proporciona uma adaptação de voz eficiente através de Aprendizado com poucos exemplos A partir de amostras de áudio limitadas e ajustes finos com otimização de parâmetros, os usuários podem ajustar atributos da voz, incluindo tom, velocidade da fala e intensidade emocional. O programa também oferece suporte à transferência de estilo a partir de áudio de referência e à adaptação básica de sotaques, mantendo a eficiência computacional.
4. Como o VibeVoice 1.5B equilibra qualidade e eficiência para diferentes cenários de implantação?
O modelo emprega alocação inteligente de recursosdirecionando o orçamento computacional para os aspectos perceptualmente mais importantes da geração de fala. Isso inclui escalonamento adaptativo de qualidade, mecanismos de atenção eficientes e pipelines de processamento de áudio otimizados. Essa abordagem equilibrada garante um desempenho robusto em diversos ambientes de implantação, desde instâncias em nuvem até dispositivos de borda.
5. Quais aplicações práticas se beneficiam mais do design eficiente do VibeVoice 1.5B?
Sua eficiência o torna excepcionalmente adequado para aplicações como: assistentes de voz móveis, sistemas embarcados com recursos computacionais limitados, serviços de nuvem multi-inquilino exigindo geração de voz com boa relação custo-benefício, aplicativos interativos em tempo real com requisitos rigorosos de latência e plataformas educacionais que atendem a muitos usuários simultâneos.
Playground de IA



Conecte-se