



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
try {
const response = await api.post('/tts', {
model: 'microsoft/vibevoice-7b',
script: 'Speaker 0: Hello there! Speaker 1: Hi, how are you?',
speakers: [
{ preset: 'Frank [EN]' }
]
});
const responseData = response.data;
const audioUrl = responseData.audio.url;
const fileName = responseData.audio.file_name;
const audioResponse = await api.get(audioUrl, { responseType: 'stream' });
const dist = path.resolve(__dirname, fileName);
const writeStream = fs.createWriteStream(dist);
audioResponse.data.pipe(writeStream);
writeStream.on('close', () => {
console.log('Audio saved to:', dist);
console.log(`Duration: ${responseData.duration} seconds`);
console.log(`Sample rate: ${responseData.sample_rate} Hz`);
});
} catch (error) {
console.error('Error:', error.message);
}
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "microsoft/vibevoice-7b",
"script": "Speaker 0: Hello there! Speaker 1: Hi, how are you?",
"speakers": [
{ "preset": "Frank [EN]" }
]
}
try:
response = requests.post(url, headers=headers, json=payload)
response.raise_for_status() # Raise an exception for bad status codes
response_data = response.json()
audio_url = response_data["audio"]["url"]
file_name = response_data["audio"]["file_name"]
audio_response = requests.get(audio_url, stream=True)
audio_response.raise_for_status()
dist = os.path.join(os.path.dirname(__file__), file_name)
with open(dist, "wb") as write_stream:
for chunk in audio_response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
print(f"Duration: {response_data['duration']} seconds")
print(f"Sample rate: {response_data['sample_rate']} Hz")
except requests.exceptions.RequestException as e:
print(f"Error making request: {e}")
except Exception as e:
print(f"Error: {e}")
main()

Detalle del producto
✨ VibeVoice 7B es un innovador modelo de síntesis de voz basado en IA, diseñado para producir un habla increíblemente natural, expresiva y contextual. Es la solución ideal para desarrolladores, creadores de contenido y empresas que buscan capacidades de voz versátiles en diversos sectores, como medios de comunicación, asistentes virtuales, videojuegos, educación y tecnologías de accesibilidad. Gracias a sus avanzadas arquitecturas neuronales profundas, VibeVoice 7B ofrece personajes de voz personalizables, enriquecidos con sólidos matices emocionales y precisión lingüística.
Capacidades técnicas y flexibilidad de entrada
✅ Tipos de entrada del modelo
VibeVoice 7B admite diversos formatos de entrada, incluyendo texto plano , SSML (lenguaje de marcado de síntesis de voz) para un control detallado del habla, y parámetros de prosodia para ajustar la entonación, el ritmo y el paso. Esto permite un control preciso de las salidas de voz, perfectamente adaptable a diversos escenarios y preferencias del usuario.
💭 Longitud de entrada y conocimiento del contexto
El modelo es capaz de procesar entradas conversacionales extensas manteniendo una sólida coherencia contextual. Esto lo hace excepcionalmente adecuado para diálogos dinámicos, narraciones e interacciones complejas de varios turnos.
Métricas de rendimiento y calidad de producción
- ⏱ Generación de voz en tiempo real: optimizado para una respuesta rápida, VibeVoice 7B genera voz de alta fidelidad a velocidades casi en tiempo real , perfecto para aplicaciones interactivas como chatbots en vivo y personajes virtuales.
- Fidelidad de audio : Ofrece salidas de voz nítidas, con calidad de estudio, con una rica textura tonal, prosodia natural y un detalle fonético preciso. El vocoder neuronal del modelo garantiza una síntesis de audio fluida y sin artefactos.
- 🎭 Variedad de estilos de voz: admite una amplia gama de estilos de voz, acentos y tonos emocionales , desde alegres y enérgicos hasta tranquilos y profesionales, lo que permite a las marcas forjar identidades auditivas únicas.
Arquitectura de modelos e innovaciones
- Diseño híbrido basado en transformadores: VibeVoice 7B utiliza una estructura de transformadores mejorada con mecanismos de atención específicamente diseñados para las características del habla. Este diseño híbrido destaca por capturar dependencias lingüísticas de largo alcance y patrones prosódicos .
- 😍 Modulación emocional y expresiva: los vectores de incrustación avanzados simulan estados emocionales y la intención del hablante, lo que permite una síntesis de voz expresiva que supera ampliamente las voces robóticas convencionales.
- 🌍 Conjunto de datos de entrenamiento sólido: entrenado en un extenso conjunto de datos multilingües que cubre diversos datos demográficos, acentos y estilos de habla, lo que garantiza una alta adaptabilidad en todos los idiomas y dominios.
Características principales y escenarios de uso
- 🧑🗨️ Creación de personajes de voz personalizados: Los usuarios pueden generar variantes de voz personalizadas ajustando el estilo, el tono y los parámetros emocionales del habla. Esto es ideal para aplicaciones de voz interactivas y contenido de audio único.
- 🌆 Aplicaciones multidominio: Ampliamente aplicable para narraciones de audiolibros, voces en off en videos y comerciales, voces de personajes en juegos, herramientas de accesibilidad para personas con discapacidad visual y sistemas avanzados de inteligencia artificial conversacional.
💸 Precios de la API
- $0,042 por minuto generado : precio rentable y transparente.
Casos de uso clave para VibeVoice 7B
- 🤖 Asistentes virtuales interactivos y chatbots: capacite a los personajes de IA con personalidades vocales ricas y creíbles que adaptan el tono en función del flujo de la conversación, lo que mejora la participación del usuario.
- 🎥 Producción de voz para medios y entretenimiento: genere diversas voces de personajes y escenarios sin la necesidad de costosas sesiones de grabación en estudio, agilizando los flujos de trabajo de producción.
- 💻 Accesibilidad y tecnología de asistencia: Cree lectores de pantalla con sonido natural y ayudas de comunicación que favorezcan la expresión emocional, mejorando significativamente la experiencia del usuario para personas con discapacidad visual.
- 📚 Herramientas educativas: facilitan el aprendizaje de idiomas y las aplicaciones de terapia del habla con una pronunciación clara y expresiva y un ritmo personalizable, lo que hace que el aprendizaje sea más efectivo y atractivo.
Ejemplo de código
(Nota: este es un marcador de posición para un fragmento de código real o un ejemplo de integración de API).
Análisis comparativo con los principales modelos de síntesis de voz
🔊 Vs ElevenLabs (ElevenVoice): Mientras que ElevenLabs se destaca en la integración de entrada multimodal y la transferencia de estilo extensa, VibeVoice 7B se diferencia con una expresividad emocional superior y una idoneidad para la interacción en tiempo real , ofreciendo una granularidad más fina en la prosodia y la adaptación contextual del habla.
🔊 Comparado con Google Text-to-Speech: Las soluciones TTS de Google ofrecen una amplia compatibilidad lingüística y una integración sólida, pero suelen priorizar la generalidad. VibeVoice 7B, por otro lado, ofrece una modulación emocional más rica y funciones avanzadas de creación de voz personalizada , lo que lo convierte en la opción preferida para contenido creativo y aplicaciones de voz específicas de marca.
🔊 Comparación con Amazon Polly: Amazon Polly es una plataforma robusta para implementaciones escalables y soporte multilingüe. Sin embargo, VibeVoice 7B la supera al ofrecer variaciones de tono dinámicas y expresivas , logrando una naturalidad más fiel, imitando con mayor eficacia los matices del habla humana.
🔊 Comparado con Microsoft Azure Speech Service: Azure Speech se centra principalmente en la implementación de nivel empresarial y la sinergia de transcripción. La principal ventaja de VibeVoice 7B reside en su capacidad para adaptar dinámicamente la expresividad y el estilo del habla , lo que lo hace excepcionalmente adecuado para experiencias de usuario narrativas y conversacionales.
Preguntas frecuentes (FAQ)
❓ ¿Qué hace que la síntesis de voz de VibeVoice 7B tenga calidad de estudio?
VibeVoice 7B utiliza una sofisticada arquitectura de difusión en cascada y procesamiento de vocoder multiescala. Esto garantiza una fidelidad excepcional, naturalidad y características acústicas completas, capturando tanto patrones prosódicos amplios como matices vocales de granularidad fina.
❓ ¿Cómo la escala de parámetros 7B mejora la expresividad emocional?
El presupuesto ampliado de parámetros 7B permite un modelado emocional sofisticado, variaciones prosódicas matizadas y un modelado espectral detallado. Incorpora codificadores de emociones especializados y un control avanzado de tono y ritmo, lo que permite un habla con una profundidad emocional y una calidad vocal excepcionales.
❓ ¿Qué funciones de personalización de voz ofrece VibeVoice 7B?
Los usuarios tienen un control preciso sobre la expresión emocional, la clonación de voz de alta fidelidad a partir de muestras limitadas y ajustes granulares de tono, timbre y características del habla. Las funciones avanzadas incluyen la especificación del arco emocional para narrativas y la adaptación de acentos y dialectos.
❓ ¿Puede VibeVoice 7B manejar tareas complejas de lectura narrativa y dramática?
Sí, el modelo demuestra una comprensión narrativa avanzada con un ritmo adecuado, diferenciación de voces de personajes en los diálogos, progresión emocional a lo largo de las historias e interpretación dramática. Su modelado prosódico contextual adapta la presentación a la estructura narrativa.
❓ ¿Qué aplicaciones profesionales se benefician más de VibeVoice 7B?
Las aplicaciones profesionales como la producción de audiolibros, diálogos de videojuegos, contenido animado, voces en off para publicidad, contenido educativo e interacciones con asistentes virtuales se benefician significativamente de su calidad de salida con calidad de estudio y su amplio control creativo.
Patio de juegos de IA



Acceso