



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
try {
const response = await api.post('/tts', {
model: 'microsoft/vibevoice-1.5b',
script: 'Speaker 0: Hello there! Speaker 1: Hi, how are you?',
speakers: [
{ preset: 'Frank [EN]' }
]
});
const responseData = response.data;
const audioUrl = responseData.audio.url;
const fileName = responseData.audio.file_name;
const audioResponse = await api.get(audioUrl, { responseType: 'stream' });
const dist = path.resolve(__dirname, fileName);
const writeStream = fs.createWriteStream(dist);
audioResponse.data.pipe(writeStream);
writeStream.on('close', () => {
console.log('Audio saved to:', dist);
console.log(`Duration: ${responseData.duration} seconds`);
console.log(`Sample rate: ${responseData.sample_rate} Hz`);
});
} catch (error) {
console.error('Error:', error.message);
}
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "microsoft/vibevoice-1.5b",
"script": "Speaker 0: Hello there! Speaker 1: Hi, how are you?",
"speakers": [
{ "preset": "Frank [EN]" }
]
}
try:
response = requests.post(url, headers=headers, json=payload)
response.raise_for_status() # Raise an exception for bad status codes
response_data = response.json()
audio_url = response_data["audio"]["url"]
file_name = response_data["audio"]["file_name"]
audio_response = requests.get(audio_url, stream=True)
audio_response.raise_for_status()
dist = os.path.join(os.path.dirname(__file__), file_name)
with open(dist, "wb") as write_stream:
for chunk in audio_response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
print(f"Duration: {response_data['duration']} seconds")
print(f"Sample rate: {response_data['sample_rate']} Hz")
except requests.exceptions.RequestException as e:
print(f"Error making request: {e}")
except Exception as e:
print(f"Error: {e}")
main()

Detalles del producto
VibeVoice 1.5B se erige como un hito modelo de síntesis de voz por IA, meticulosamente diseñado para ofrecer habla de alta calidad y sonido naturalCuenta con características excepcionales. modulación de tono expresivaEsta solución altamente escalable y versátil, que se adapta a la perfección a diversos idiomas y contextos, permite a creadores de contenido, desarrolladores y empresas desarrollar capacidades avanzadas de generación de voz para una amplia gama de aplicaciones, como asistentes virtuales, audiolibros, videojuegos y producción multimedia.
✨ Capacidades clave y versatilidad de entrada
VibeVoice 1.5B procesa magistralmente diversos tipos de entrada para producir un habla realista con una prosodia matizada, lo que garantiza su adaptabilidad a cualquier proyecto. Es compatible con:
- ✓ Texto sin formato: Para la generación de voz simple y directa.
- ✓ SSML (Lenguaje de marcado para síntesis de voz): Permite un control preciso de atributos del habla como las pausas, la pronunciación y la entonación.
- ✓ Etiquetas emocionales/de estilo: Para infundir emociones específicas y estilos de habla distintivos en el resultado.
Este modelo maneja con destreza diálogos conversacionales, narración y voces de personajes, ofreciendo una entonación dinámica que hace que cada palabra suene genuinamente humana.
🚀 Rendimiento y calidad de salida inigualables
- ⏳ Latencia: Optimizado para generación de voz casi en tiempo realVibeVoice 1.5B es ideal para aplicaciones interactivas como chatbots y transmisiones en directo, lo que garantiza una comunicación inmediata y fluida.
- 🎧 Calidad de audio: Produce de forma constante audio de calidad de estudioSe caracteriza por una articulación nítida, una entonación natural y transiciones fluidas. Esto lo hace ideal tanto para aplicaciones profesionales como para el consumidor que exigen una fidelidad de audio superior.
- 💬 Expresividad: El modelo proporciona un control granular sobre Adaptaciones del tono emocional, el énfasis, el ritmo y el acento.Esta flexibilidad permite a los usuarios alinear perfectamente la salida de voz con los requisitos específicos de narración y las necesidades de marca.
🧠 Arquitectura técnica avanzada
VibeVoice 1.5B está construido sobre una base sofisticada arquitectura neuronal de conversión de texto a voz (TTS) basada en transformadoresIncorpora módulos avanzados de modelado de prosodia, aprovechando mecanismos de autoatención multicapa y capas convolucionales optimizadas específicamente para la extracción de características acústicas temporales. El rendimiento excepcional del modelo es el resultado de un entrenamiento extenso en un vasto corpus de grabaciones de voz multilingües y conjuntos de datos de habla emocional ricamente anotados, lo que garantiza una generalización sólida en una amplia gama de hablantes y estilos.
💲 Precios de API
- 💰 0,042 dólares por minuto generado
⭐ Características principales de un vistazo
- 📝 Procesamiento de entrada multimodal: Admite diversos formatos de entrada, incluido contenido textual enriquecido con señales emocionales integradas e instrucciones precisas a nivel de fonema, lo que ofrece un control sin precedentes sobre la voz sintética.
- 🎧 Personalización de voz expresiva: Permite un ajuste detallado de atributos críticos del habla, como el tono, la velocidad al hablar, los matices emocionales y las sutiles variaciones en la identidad del hablante, lo que permite una alineación perfecta de la voz con su visión creativa.
- 🌐 Soporte multilingüe y multidialectal: Ofrece resultados de voz naturales y consistentes en numerosos idiomas y dialectos regionales, manteniendo una alta fidelidad de voz para un alcance verdaderamente global.
💡 Diversas aplicaciones
- 👤 Asistentes virtuales y chatbots: Facilitar interacciones atractivas y humanas, mejorando la atención al cliente y la compañía digital.
- 📚 Narración de audiolibros y podcasts: Genera interpretaciones vocales dinámicas con una clara diferenciación de personajes y una gran carga emocional, dando vida a las narrativas de forma vívida.
- 🎮 Videojuegos y animación: Crea voces de personajes realistas con una gran flexibilidad de estilo, lo que contribuye a experiencias de juego y narración profundamente inmersivas.
- 📖 Herramientas de accesibilidad: Ofrecer voces de lector de pantalla de alta calidad con expresividad personalizable, mejorando significativamente la experiencia del usuario para todos.
- 🌎 Localización de contenido: Permite un doblaje de voz rápido y natural en varios idiomas, lo que facilita la distribución global de contenido y amplía el alcance a la audiencia.
📝 Ejemplo de código
// Ejemplo de uso de la API de VibeVoice 1.5B
const textToSynthesize = "Hola, habla VibeVoice 1.5B!";
const voiceParams = {
modelo: "microsoft/vibevoice-1.5b",
idioma: "en-US",
emoción: "alegre"
};
VibeVoice.synthesize(textToSynthesize, voiceParams)
.then(audioUrl => console.log("Audio generado:", audioUrl))
.catch(error => console.error("Error al sintetizar la voz:", error));
📈 VibeVoice 1.5B frente a la competencia
- vs. Eleven Music: Mientras que Eleven Music se especializa en la generación de música impulsada por IA con capacidades de composición complejas, VibeVoice 1.5B se distingue por sobresalir en Síntesis de voz natural y expresiva, específicamente para audio hablado.
- vs. Suno AI: En comparación con el enfoque de Suno AI en las funciones de generación de música, la principal fortaleza de VibeVoice 1.5B radica en su Calidad de voz superior, control de prosodia sin igual, y entrega de voz multilingüe, meticulosamente diseñado para contextos conversacionales más que para contenido musical.
- vs. Compartir: Udio generalmente se enfoca en la producción de audio más simple con síntesis de voz limitada. VibeVoice, por el contrario, ofrece significativamente mayor fidelidad, variación emocional detalladay una compatibilidad con aplicaciones más amplia, adaptada a las necesidades de generación de voz profesional.
- vs. MusicAI Sandbox: MusicAI Sandbox está orientado principalmente a la experimentación musical creativa. En marcado contraste, VibeVoice 1.5B prioriza Salida de voz hablada realista, proporcionando opciones avanzadas de ajuste fino para una amplia gama de características y estilos vocales.
- vs. AIMusic.fm: AIMusic.fm automatiza en gran medida la creación musical con opciones de personalización restringidas. VibeVoice proporciona control granular sobre los parámetros de voz y una amplia adaptabilidad de estilo, específicamente diseñada para proyectos centrados en la voz.
☝ Preguntas frecuentes (FAQ)
1. ¿Qué arquitectura de vocoder neuronal permite la síntesis de voz expresiva de VibeVoice 1.5B?
VibeVoice 1.5B emplea un arquitectura de difusión de adaptación de flujo eficiente, meticulosamente optimizada para la expresividad emocional y la calidad de voz en su escala de 1.500 millones de parámetros. Esta arquitectura presenta una generación jerárquica de formas de onda que captura tanto patrones macroprosódicos como detalles de microentonación, junto con una normalización adaptativa al estilo para preservar la identidad del hablante en diversos estados emocionales.
2. ¿Cómo logra el modelo la expresividad emocional dentro de su ajustado presupuesto de parámetros?
El modelo implementa un modelado de prosodia emocional altamente eficiente a través de incrustaciones de emociones destiladasEstas técnicas capturan las correlaciones acústicas de diferentes estados emocionales sin requerir una sobrecarga de parámetros extensa. Esto, combinado con extractores de características emocionales compartidas y redes de tono/ritmo optimizadas, permite una impresionante gama emocional.
3. ¿Qué capacidades de personalización de voz ofrece VibeVoice 1.5B?
VibeVoice 1.5B proporciona una adaptación de voz eficiente a través de aprendizaje con pocos ejemplos A partir de muestras de audio limitadas y un ajuste preciso de parámetros, los usuarios pueden modificar atributos de la voz como el tono, la velocidad de habla y la intensidad emocional. Además, permite la transferencia de estilo a partir de audio de referencia y la adaptación básica del acento, manteniendo la eficiencia computacional.
4. ¿Cómo equilibra VibeVoice 1.5B la calidad y la eficiencia en diferentes escenarios de implementación?
El modelo emplea asignación inteligente de recursosEsto dirige el presupuesto computacional a los aspectos más importantes desde el punto de vista perceptual en la generación del habla. Esto incluye el escalado adaptativo de la calidad, mecanismos de atención eficientes y pipelines de procesamiento de audio optimizados. Este enfoque equilibrado garantiza un rendimiento sólido en diversos entornos de implementación, desde instancias en la nube hasta dispositivos periféricos.
5. ¿Qué aplicaciones prácticas se benefician más del diseño eficiente de VibeVoice 1.5B?
Su eficiencia lo hace excepcionalmente adecuado para aplicaciones como: Asistentes de voz móviles, sistemas integrados con recursos computacionales limitados, servicios en la nube multiusuario que requieren generación de voz rentable, aplicaciones interactivas en tiempo real con estrictos requisitos de latencia y plataformas educativas que den servicio a muchos usuarios simultáneos.
Campo de juegos de IA



Acceso