



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
try {
const response = await api.post('/tts', {
model: 'microsoft/vibevoice-1.5b',
script: 'Speaker 0: Hello there! Speaker 1: Hi, how are you?',
speakers: [
{ preset: 'Frank [EN]' }
]
});
const responseData = response.data;
const audioUrl = responseData.audio.url;
const fileName = responseData.audio.file_name;
const audioResponse = await api.get(audioUrl, { responseType: 'stream' });
const dist = path.resolve(__dirname, fileName);
const writeStream = fs.createWriteStream(dist);
audioResponse.data.pipe(writeStream);
writeStream.on('close', () => {
console.log('Audio saved to:', dist);
console.log(`Duration: ${responseData.duration} seconds`);
console.log(`Sample rate: ${responseData.sample_rate} Hz`);
});
} catch (error) {
console.error('Error:', error.message);
}
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "microsoft/vibevoice-1.5b",
"script": "Speaker 0: Hello there! Speaker 1: Hi, how are you?",
"speakers": [
{ "preset": "Frank [EN]" }
]
}
try:
response = requests.post(url, headers=headers, json=payload)
response.raise_for_status() # Raise an exception for bad status codes
response_data = response.json()
audio_url = response_data["audio"]["url"]
file_name = response_data["audio"]["file_name"]
audio_response = requests.get(audio_url, stream=True)
audio_response.raise_for_status()
dist = os.path.join(os.path.dirname(__file__), file_name)
with open(dist, "wb") as write_stream:
for chunk in audio_response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
print(f"Duration: {response_data['duration']} seconds")
print(f"Sample rate: {response_data['sample_rate']} Hz")
except requests.exceptions.RequestException as e:
print(f"Error making request: {e}")
except Exception as e:
print(f"Error: {e}")
main()

Detalle del producto
VibeVoice 1.5B se erige como un hito Modelo de síntesis de voz de IA, meticulosamente diseñado para ofrecer Discurso de alta calidad y sonido naturalCuenta con unas características excepcionales modulación de tono expresivaSe adapta perfectamente a diversos idiomas y contextos. Esta solución, altamente escalable y versátil, potencia a creadores de contenido, desarrolladores y empresas al proporcionar capacidades avanzadas de generación de voz para una amplia gama de aplicaciones, como asistentes virtuales, audiolibros, videojuegos y producción multimedia.
✨ Capacidades clave y versatilidad de entrada
VibeVoice 1.5B procesa con maestría diversos tipos de entrada para producir un habla realista con una prosodia matizada, lo que garantiza su adaptabilidad a cualquier proyecto. Es compatible con:
- ✓ Texto sin formato: Para una generación de voz simple y directa.
- ✓ SSML (lenguaje de marcado de síntesis de voz): Permite un control detallado de los atributos del habla, como pausas, pronunciación y entonación.
- ✓ Etiquetas emocionales/de estilo: Infundir emociones específicas y estilos de habla distintos en el texto.
Este modelo se maneja hábilmente diálogo conversacional, narración y voces de personajes, ofreciendo una entonación dinámica que hace que cada expresión suene genuinamente humana.
🚀 Rendimiento y calidad de salida inigualables
- ⏳ Latencia: Optimizado para generación de voz casi en tiempo realVibeVoice 1.5B es perfectamente adecuado para aplicaciones interactivas como chatbots y transmisiones en vivo, garantizando una comunicación inmediata y fluida.
- 🎧 Calidad de audio: Produce consistentemente audio de calidad de estudioSe caracteriza por una articulación clara, una entonación natural y transiciones fluidas. Esto lo hace ideal tanto para aplicaciones profesionales como para usuarios finales que exigen una fidelidad de audio superior.
- 💬 Expresividad: El modelo proporciona un control granular sobre Tono emocional, énfasis, ritmo y adaptaciones de acentoEsta flexibilidad permite a los usuarios alinear perfectamente la salida de voz con los requisitos específicos de narración y las necesidades de marca.
🧠 Arquitectura técnica avanzada
VibeVoice 1.5B se basa en un sofisticado Red neuronal de texto a voz (TTS) basada en transformadorIncorpora módulos avanzados de modelado de prosodia, que aprovechan mecanismos de autoatención multicapa y capas convolucionales específicamente optimizadas para la extracción de características acústicas temporales. El excepcional rendimiento del modelo es el resultado de un entrenamiento exhaustivo en un... vasto corpus de grabaciones de voz multilingües y conjuntos de datos de discurso emocional ricamente anotados, lo que garantiza una generalización sólida en una amplia gama de hablantes y estilos.
💲 Precios de la API
- 💰 $0,042 por minuto generado
⭐ Características principales de un vistazo
- 📝 Procesamiento de entrada multimodal: Acepta diversos formatos de entrada, incluido contenido textual enriquecido con señales emocionales integradas e instrucciones precisas a nivel de fonemas, lo que ofrece un control incomparable sobre la voz sintética.
- 🎧 Personalización de voz expresiva: Permite un ajuste detallado de atributos críticos del habla, como el tono, la velocidad del habla, los matices emocionales y las variaciones sutiles de la identidad del hablante, lo que permite una alineación perfecta de la voz con su visión creativa.
- 🌐 Soporte multilingüe y multidialecto: Ofrece salidas de voz naturales y consistentes en numerosos idiomas y dialectos regionales, manteniendo una calidad de voz de alta fidelidad para un alcance verdaderamente global.
💡 Diversas aplicaciones
- 👤 Asistentes virtuales y chatbots: Facilitar interacciones atractivas y similares a las humanas, mejorando la atención al cliente y el compañerismo digital.
- Narración del audiolibro y podcast: Genere interpretaciones de voz dinámicas con una clara diferenciación de personajes y emociones, dando vida a las narraciones.
- 🎮 Juegos y animación: Crea voces de personajes realistas con una amplia flexibilidad de estilo, lo que contribuye a una narración y experiencias de juego profundamente inmersivas.
- 📖 Herramientas de accesibilidad: Proporcione voces de lector de pantalla de alta calidad con expresividad personalizable, mejorando significativamente la experiencia del usuario para todos.
- 🌎 Localización de contenido: Habilite el doblaje de voz rápido y natural en múltiples idiomas, lo que respalda sin esfuerzo la distribución global de contenido y un alcance de audiencia más amplio.
Ejemplo de código
// Ejemplo de uso de la API de VibeVoice 1.5B
const textToSynthesize = "Hola, les habla VibeVoice 1.5B!";
constante parámetros de voz = {
modelo: "microsoft/vibevoice-1.5b",
idioma: "en-US",
emoción: "alegre"
};
VibeVoice.synthesize(textoASintetizar, parámetrosDeVoz)
.then(audioUrl => console.log("Audio generado:", audioUrl))
.catch(error => console.error("Error al sintetizar la voz:", error));
📈 VibeVoice 1.500 millones frente a la competencia
- vs. Once Música: Mientras que Eleven Music se especializa en la generación de música impulsada por IA con complejas capacidades de composición, VibeVoice 1.5B se distingue por sobresalir en síntesis de voz natural y expresiva, específicamente para audio hablado.
- contra Suno AI: En comparación con el enfoque de Suno AI en las funciones de generación de música, la fortaleza principal de VibeVoice 1.5B radica en su Calidad de voz superior, control de prosodia incomparable, y entrega de voz multilingüe, meticulosamente diseñado para contextos conversacionales en lugar de contenido musical.
- vs. Compartir: Udio generalmente se enfoca en una producción de audio más simple con una síntesis de voz limitada. VibeVoice, por el contrario, ofrece significativamente... mayor fidelidad, variación emocional detalladay un soporte de aplicaciones más amplio adaptado a los requisitos de generación de voz profesional.
- vs. MusicAI Sandbox: MusicAI Sandbox está orientado principalmente a la experimentación musical creativa. En marcado contraste, VibeVoice 1.5B prioriza Salida de voz hablada realista, que proporciona opciones avanzadas de ajuste fino para una amplia gama de características y estilos vocales.
- contra AIMusic.fm: AIMusic.fm automatiza en gran medida la creación de música con opciones de personalización limitadas. VibeVoice ofrece control granular sobre los parámetros del habla y una amplia adaptabilidad de estilo, específicamente diseñado para proyectos centrados en el habla.
☝ Preguntas frecuentes (FAQ)
1. ¿Qué arquitectura de vocoder neuronal permite la síntesis de voz expresiva de VibeVoice 1.5B?
VibeVoice 1.5B emplea un Arquitectura de difusión eficiente que se adapta al flujoOptimizada meticulosamente para la expresividad emocional y la calidad de voz en su escala de 1500 millones de parámetros. Esta arquitectura ofrece generación jerárquica de formas de onda que captura tanto patrones macroprosódicos como detalles de microentonación, junto con una normalización adaptativa al estilo para preservar la identidad del hablante en diversos estados emocionales.
2. ¿Cómo logra el modelo expresividad emocional dentro de su presupuesto compacto de parámetros?
El modelo implementa un modelado de prosodia emocional altamente eficiente a través de incrustaciones de emociones destiladasEstos capturan los correlatos acústicos de diferentes estados emocionales sin requerir una gran cantidad de parámetros. Esto, combinado con extractores de características emocionales compartidos y redes optimizadas de tono y tiempo, permite una impresionante gama emocional.
3. ¿Qué capacidades de personalización de voz ofrece VibeVoice 1.5B?
VibeVoice 1.5B proporciona una adaptación de voz eficiente a través de aprendizaje de pocos disparos A partir de muestras de audio limitadas y con un ajuste preciso de parámetros. Los usuarios pueden ajustar atributos de voz, como el tono, la velocidad de habla y la intensidad emocional. También admite la transferencia de estilo desde el audio de referencia y la adaptación básica del acento, manteniendo la eficiencia computacional.
4. ¿Cómo equilibra VibeVoice 1.5B la calidad y la eficiencia para diferentes escenarios de implementación?
El modelo emplea asignación inteligente de recursosDirigiendo el presupuesto computacional a los aspectos más importantes para la percepción en la generación de voz. Esto incluye escalamiento de calidad adaptativo, mecanismos de atención eficientes y canales de procesamiento de audio optimizados. Este enfoque equilibrado garantiza un rendimiento sólido en diversos entornos de implementación, desde instancias en la nube hasta dispositivos edge.
5. ¿Qué aplicaciones prácticas se benefician más del diseño eficiente de VibeVoice 1.5B?
Su eficiencia lo hace excepcionalmente adecuado para aplicaciones como: Asistentes de voz móviles, sistemas integrados con recursos computacionales limitados, servicios en la nube multiinquilino que requieren una generación de voz rentable, aplicaciones interactivas en tiempo real con estrictos requisitos de latencia y plataformas educativas que atiendan a muchos usuarios simultáneos.
Patio de juegos de IA



Acceso