



const axios = require('axios').default;
const api = axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/tts', {
model: 'inworld/tts-1',
text: 'OpenAI TTS are fast and powerful language models. Use it to convert text to natural sounding spoken text.',
voice: 'coral',
});
console.log('Audio URL:', response.data.audio.url);
console.log('Characters:', response.data.usage.characters);
};
main();
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "inworld/tts-1",
"text": "OpenAI TTS are fast and powerful language models. Use it to convert text to natural sounding spoken text.",
"voice": "coral"
}
response = requests.post(url, headers=headers, json=payload)
data = response.json()
print("Audio URL:", data["audio"]["url"])
print("Characters:", data["usage"]["characters"])
main()

Detalle del producto
✨ API TTS-1 en el mundo: síntesis de voz avanzada en tiempo real
El TTS-1 en el mundo El modelo representa una solución de texto a voz (TTS) autorregresiva basada en Transformer de última generación, diseñada para producir Discurso de alta calidad en tiempo real en varios idiomasEntrega audio con latencia excepcionalmente baja con una resolución superior de 48 kHz. Además, incorpora capacidades avanzadas para control emocional de grano fino, lo que lo hace versátil tanto para aplicaciones en el dispositivo como basadas en la nube.
⚙️ Especificaciones técnicas
- • Arquitectura: Modelo autorregresivo basado en transformadores
- • Recuento de parámetros: 1.6 mil millones (TTS-1)
- • Frecuencia de muestreo: Audio de alta resolución de hasta 48 kHz
- • Estado latente: Optimizado para baja latencia, aplicaciones en tiempo real
- • Idiomas: Soportes 11 idiomas con sólidas capacidades multilingües
- • Control emocional: Expresividad avanzada de grano fino
🌟 Características principales
- • Audio de alta fidelidad: Proporciona generación de voz de 48 kHz con técnicas de súper resolución para un audio nítido.
- • Control emocional matizado: Permite ajustes emocionales y prosódicos de grano fino, posibilitando una producción de habla altamente matizada.
- • Calidad multilingüe consistente: Garantiza una voz consistente y de alta calidad en los 11 idiomas admitidos.
- • Implementación eficiente: Arquitectura optimizada para una integración perfecta en entornos de nube y de borde (en el dispositivo).
- • Entrenamiento robusto: Creado sobre un amplio conjunto de datos de entrenamiento de más de 300.000 horas de habla inglesa y china, mejorando la naturalidad y la solidez.
🚀 Rendimiento y puntos de referencia visuales
El Inworld TTS-1 supera consistentemente a muchos modelos de la competencia, particularmente en áreas de Calidad de voz multilingüe, rango emocional y latencia ultrabaja, estableciéndolo como líder para aplicaciones exigentes en tiempo real.
Representación visual de las características de rendimiento de Inworld TTS-1.
💲 Precios de la API
$5.25 por cada millón de caracteres
(aproximadamente $0.00525 por minuto de discurso generado)
💡 Casos de uso versátiles
- • Asistentes de voz en tiempo real e IA conversacional: Perfecto para aplicaciones que exigen un habla natural y de baja latencia para una interacción fluida.
- • Creación de contenido multimedia: Mejore audiolibros, podcasts y narraciones de video con voces en off multilingües de alta calidad.
- • Sistemas de respuesta de voz interactiva (IVR): Infunda matices emocionales en los sistemas IVR para aumentar significativamente la participación del usuario.
- • Aplicaciones TTS en el dispositivo: Implemente de manera eficiente síntesis de voz de alta calidad en sistemas móviles e integrados con recursos limitados.
- • Herramientas educativas y de accesibilidad: Proporcionar síntesis de voz multilingüe de alta calidad para enriquecer las experiencias de aprendizaje y accesibilidad.
🆚 TTS-1 en el mundo vs. competidores líderes
frente a Google WaveNet: Inworld TTS-1 destaca por su menor latencia y síntesis superior en tiempo realLo que lo hace ideal para aplicaciones interactivas. WaveNet ofrece un habla muy natural y expresiva, pero generalmente con un mayor coste computacional.
vs. 11LABS Multilingüe V2: Inworld TTS-1 proporciona Matices emocionales más finos y una latencia aún menor Para escenarios de interacción en vivo. Si bien 11LABS ofrece sólidas capacidades multilingües con una interfaz más sencilla, Inworld TTS-1 es la opción preferida para una producción expresiva de alta calidad.
frente a OpenAI TTS-1-HD: OpenAI TTS-1-HD ofrece audio de ultraalta definición con calidad de estudio y una fidelidad excepcional, que a menudo supera a Inworld en cuanto a riqueza de audio. Sin embargo, esto implica... mayor latencia y costoInworld TTS-1 ofrece una solución más rentable y versátil para implementaciones multilingües y con flexibilidad de dispositivos, perfectamente adecuada para las necesidades cotidianas en tiempo real.
Ejemplo de código y documentación
Para obtener información detallada sobre el uso y la integración de la API, consulte la documentación oficial:
Documentación de la API TTS-1 de Inworld (enlace externo)
❓ Preguntas frecuentes (FAQ)
Inworld TTS-1 es un modelo de texto a voz autorregresivo de vanguardia basado en Transformer, diseñado para la síntesis de voz de alta calidad en tiempo real. Ofrece audio de baja latencia a 48 kHz, admite un control emocional preciso y está optimizado para aplicaciones multilingües en entornos de nube y en dispositivos.
Las especificaciones clave incluyen una arquitectura de 1600 millones de parámetros, audio de alta resolución de hasta 48 kHz y compatibilidad con 11 idiomas. Sus características principales abarcan la generación de voz de alta fidelidad, un control emocional y prosódico preciso, una implementación eficiente en la nube y el borde, y la robustez de un conjunto de datos de entrenamiento de más de 300 000 horas.
Inworld TTS-1 se distingue por una latencia más baja y capacidades superiores en tiempo real en comparación con Google WaveNet, matices emocionales más finos y una latencia más baja para interacciones en vivo que 11LABS Multilingual V2, y una mejor relación costo-eficiencia y flexibilidad del dispositivo que OpenAI TTS-1-HD, que prioriza la ultra alta definición a mayor costo y latencia.
Los principales casos de uso incluyen asistentes de voz en tiempo real, creación de contenido multimedia, sistemas de respuesta de voz interactiva (IVR) con inteligencia emocional, texto a voz integrado en el dispositivo y herramientas educativas y de accesibilidad multilingües. La API tiene un precio de $5.25 por millón de caracteres, lo que equivale aproximadamente a $0.00525 por minuto de voz.
Patio de juegos de IA



Acceso