



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
try {
const response = await api.post('/tts', {
model: 'microsoft/vibevoice-7b',
script: 'Speaker 0: Hello there! Speaker 1: Hi, how are you?',
speakers: [
{ preset: 'Frank [EN]' }
]
});
const responseData = response.data;
const audioUrl = responseData.audio.url;
const fileName = responseData.audio.file_name;
const audioResponse = await api.get(audioUrl, { responseType: 'stream' });
const dist = path.resolve(__dirname, fileName);
const writeStream = fs.createWriteStream(dist);
audioResponse.data.pipe(writeStream);
writeStream.on('close', () => {
console.log('Audio saved to:', dist);
console.log(`Duration: ${responseData.duration} seconds`);
console.log(`Sample rate: ${responseData.sample_rate} Hz`);
});
} catch (error) {
console.error('Error:', error.message);
}
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "microsoft/vibevoice-7b",
"script": "Speaker 0: Hello there! Speaker 1: Hi, how are you?",
"speakers": [
{ "preset": "Frank [EN]" }
]
}
try:
response = requests.post(url, headers=headers, json=payload)
response.raise_for_status() # Raise an exception for bad status codes
response_data = response.json()
audio_url = response_data["audio"]["url"]
file_name = response_data["audio"]["file_name"]
audio_response = requests.get(audio_url, stream=True)
audio_response.raise_for_status()
dist = os.path.join(os.path.dirname(__file__), file_name)
with open(dist, "wb") as write_stream:
for chunk in audio_response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
print(f"Duration: {response_data['duration']} seconds")
print(f"Sample rate: {response_data['sample_rate']} Hz")
except requests.exceptions.RequestException as e:
print(f"Error making request: {e}")
except Exception as e:
print(f"Error: {e}")
main()

Detalles del producto
✨ VibeVoice 7B es un revolucionario modelo de síntesis de voz impulsado por IA, diseñado para producir un habla increíblemente natural, expresiva y contextual. Es la solución ideal para desarrolladores, creadores de contenido y empresas que buscan capacidades de voz versátiles en diversos sectores, como medios de comunicación, asistentes virtuales, videojuegos, educación y tecnologías de accesibilidad. Gracias a sus avanzadas arquitecturas neuronales profundas, VibeVoice 7B ofrece perfiles de voz personalizables, enriquecidos con matices emocionales sólidos y precisión lingüística.
Capacidades técnicas y flexibilidad de entrada
✅ Tipos de entrada del modelo
VibeVoice 7B admite diversos formatos de entrada, incluyendo texto plano , SSML (Lenguaje de Marcado de Síntesis de Voz) para un control detallado del habla y parámetros de prosodia para ajustar con precisión la entonación, el ritmo y la cadencia. Esto permite un control preciso de las salidas de voz, adaptándose perfectamente a diversos escenarios y preferencias del usuario.
💭 Longitud de entrada y conocimiento del contexto
El modelo es capaz de procesar entradas conversacionales extensas manteniendo una sólida coherencia contextual. Esto lo hace excepcionalmente adecuado para diálogos dinámicos, narración de historias e interacciones complejas de múltiples turnos.
Métricas de rendimiento y calidad de la producción
- ⏱ Generación de voz en tiempo real: Optimizado para una respuesta rápida, VibeVoice 7B genera voz de alta fidelidad a velocidades casi en tiempo real , perfecta para aplicaciones interactivas como chatbots en vivo y personajes virtuales.
- 🎧 Fidelidad de audio: Ofrece un sonido nítido y de calidad profesional, con una rica textura tonal, prosodia natural y detalles fonéticos precisos. El vocoder neuronal del modelo garantiza una síntesis de audio fluida y sin artefactos.
- 🎭 Variedad de estilos de voz: Admite una amplia gama de estilos de voz, acentos y tonos emocionales , desde alegres y enérgicos hasta tranquilos y profesionales, lo que permite a las marcas forjar identidades auditivas únicas.
Arquitectura de modelos e innovaciones
- 🧩 Diseño híbrido basado en transformador: VibeVoice 7B utiliza una arquitectura basada en transformadores mejorada con mecanismos de atención específicamente adaptados a las características del habla. Este diseño híbrido destaca por capturar dependencias lingüísticas de largo alcance y patrones prosódicos .
- 😍 Modulación emocional y expresiva: Los vectores de incrustación avanzados simulan estados emocionales e intención del hablante, lo que permite una síntesis de voz expresiva que supera con creces las voces robóticas convencionales.
- 🌍 Conjunto de datos de entrenamiento robusto: Entrenado con un extenso conjunto de datos multilingües que abarca diversos grupos demográficos, acentos y estilos de habla, lo que garantiza una alta adaptabilidad a través de idiomas y dominios.
Características principales y escenarios de uso
- 🧑🗨️ Creación de voces personalizadas: Los usuarios pueden generar variantes de voz personalizadas ajustando el estilo de habla, el tono y los parámetros emocionales. Esto es ideal para aplicaciones de voz interactivas y contenido de audio único.
- 🌆 Aplicaciones multidominio: Ampliamente aplicable para la narración de audiolibros, locuciones en vídeos y anuncios, voces de personajes en videojuegos, herramientas de accesibilidad para personas con discapacidad visual y sistemas avanzados de IA conversacional.
💸 Precios de API
- 0,042 dólares por minuto generado : precios transparentes y rentables.
Casos de uso clave para VibeVoice 7B
- 🤖 Asistentes virtuales interactivos y chatbots: Dota a los personajes de IA de personalidades vocales ricas y creíbles que adaptan el tono según el flujo de la conversación, mejorando la interacción con el usuario.
- 🎥 Producción de voz para medios y entretenimiento: Genera voces y escenarios diversos para distintos personajes sin necesidad de costosas sesiones de grabación en estudio, lo que agiliza los flujos de trabajo de producción.
- 💻 Accesibilidad y tecnología de asistencia: Creamos lectores de pantalla con sonido natural y herramientas de comunicación que apoyan la expresión emocional, mejorando significativamente la experiencia del usuario para las personas con discapacidad visual.
- 📚 Herramientas educativas: Facilitan el aprendizaje de idiomas y las aplicaciones de terapia del habla con una pronunciación clara y expresiva y un ritmo personalizable, lo que hace que el aprendizaje sea más eficaz y atractivo.
Ejemplo de código
(Nota: Este es un marcador de posición para un fragmento de código real o un ejemplo de integración de API).
Análisis comparativo con los principales modelos de síntesis de voz.
🔊 Vs ElevenLabs (ElevenVoice): Mientras que ElevenLabs destaca por su integración de entrada multimodal y su amplia transferencia de estilo, VibeVoice 7B se diferencia por su expresividad emocional superior y su idoneidad para la interacción en tiempo real , ofreciendo una mayor precisión en la prosodia y la adaptación del habla contextual.
🔊 Vs Google Text-to-Speech: Las soluciones TTS de Google ofrecen una amplia compatibilidad lingüística y una sólida integración, pero suelen priorizar la generalidad. VibeVoice 7B, por el contrario, proporciona una modulación emocional más rica y capacidades avanzadas de creación de voz personalizada , lo que la convierte en la opción preferida para contenido creativo y aplicaciones de voz específicas de marca.
🔊 Vs Amazon Polly: Amazon Polly es una plataforma robusta para implementaciones escalables y soporte multilingüe. Sin embargo, VibeVoice 7B la supera en la entrega de variaciones de tono dinámicas y expresivas , logrando una mayor fidelidad y naturalidad, emulando con mayor eficacia los matices del habla humana.
🔊 En comparación con Microsoft Azure Speech Service: Azure Speech se centra en gran medida en la implementación de nivel empresarial y la sinergia de transcripción. La principal fortaleza de VibeVoice 7B reside en su capacidad para adaptar dinámicamente la expresividad y el estilo del habla , lo que la hace excepcionalmente adecuada para experiencias de usuario narrativas y conversacionales.
Preguntas frecuentes (FAQ)
❓ ¿Qué hace que la síntesis de voz de VibeVoice 7B tenga calidad de estudio?
VibeVoice 7B utiliza una sofisticada arquitectura de difusión en cascada y procesamiento de vocoder multiescala. Esto garantiza una fidelidad, naturalidad y características acústicas excepcionales, capturando tanto patrones prosódicos amplios como matices vocales sutiles.
❓ ¿ Cómo mejora la escala de parámetros 7B la expresividad emocional?
El mayor presupuesto de parámetros del 7B permite un modelado emocional sofisticado, variaciones prosódicas matizadas y un modelado espectral detallado. Incorpora codificadores de emociones especializados y un control avanzado de tono y ritmo, lo que posibilita un habla con una profundidad emocional y una calidad vocal excepcionales.
❓ ¿Qué funciones de personalización de voz ofrece VibeVoice 7B?
Los usuarios tienen un control preciso sobre la expresión emocional, clonación de voz de alta fidelidad a partir de muestras limitadas y ajustes detallados de tono, timbre y características del habla. Entre las funciones avanzadas se incluyen la especificación del arco emocional para narraciones y la adaptación de acentos y dialectos.
❓ ¿Puede VibeVoice 7B manejar tareas complejas de lectura narrativa y dramática?
Sí, el modelo demuestra una comprensión narrativa avanzada con un ritmo adecuado, diferenciación de la voz de los personajes en los diálogos, progresión emocional a lo largo de las historias e interpretación dramática. Su modelado de prosodia sensible al contexto adapta la interpretación según la estructura narrativa.
❓ ¿Qué aplicaciones profesionales se benefician más de VibeVoice 7B?
Las aplicaciones profesionales como la producción de audiolibros, los diálogos de videojuegos, el contenido animado, las locuciones publicitarias, el contenido educativo y las interacciones con asistentes virtuales se benefician significativamente de su calidad de salida de nivel profesional y su amplio control creativo.
Campo de juegos de IA



Acceso