



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post(
'/tts',
{
model: '#g1_aura-2-amalthea-en',
text: 'Hi! What are you doing today?',
},
{ responseType: 'stream' },
);
const dist = path.resolve(__dirname, './audio.wav');
const writeStream = fs.createWriteStream(dist);
response.data.pipe(writeStream);
writeStream.on('close', () => console.log('Audio saved to:', dist));
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "#g1_aura-2-amalthea-en",
"text": "Hi! What are you doing today?",
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.join(os.path.dirname(__file__), "audio.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()

Detalle del producto
🌟 Aura-2 de Deepgram: Excelencia en la conversión de texto a voz empresarial
Deepgram's Aura-2 es un dispositivo de última generación solución de texto a voz (TTS) Diseñado específicamente para aplicaciones empresariales. Ofrece síntesis de voz natural y en vivo con una claridad incomparable y pronunciaciones precisas y específicas del dominio.
Diseñado para la flexibilidad, Aura-2 ofrece opciones de implementación versátiles, incluidos entornos locales y en la nube, lo que garantiza la creación de voz instantánea y sensible al contexto para aplicaciones críticas como agentes de voz, sistemas de respuesta de voz interactiva (IVR) y conversaciones de IA avanzadas.
⚙️ Especificaciones técnicas
- ⚡ Latencia: Coherente
- Tecnología de inferencia: Arquitectura de transmisión acelerada por GPU con cuantificación y poda para lograr eficiencia.
- 📈 Escalabilidad: El tiempo de ejecución distribuido sin estado permite un escalamiento rápido y sin cuellos de botella.
- 🔒 Seguridad: Diseñado teniendo en cuenta la implementación de nivel empresarial y el cumplimiento de la localidad de datos.
📊 Puntos de referencia de rendimiento
- ✓ Logra Latencia TTFB inferior a 200 ms para un flujo de conversación ultra sensible.
- ✓ Factor de tiempo real (RTF) de 0,111x, generando 1 segundo de audio en ~100 milisegundos.
- ✓ Admite miles de sesiones simultáneas con baja latencia constante y resultados de alta calidad.
- ✓ Mantiene una variación mínima y una latencia máxima baja incluso bajo alta concurrencia, algo fundamental para agentes virtuales en tiempo real.
- ✓ Supera a muchos competidores manteniéndose consistentemente por debajo del umbral de conversación de 200 ms.
- ✓ Diseñado con Acelerado por GPU y Enterprise Runtime optimizado con prioridad de transmisión para una inferencia rápida.
- ✓ Implementación flexible en la nube, VPC o en las instalaciones locales para reducir los retrasos de ida y vuelta y satisfacer las necesidades de cumplimiento.
- ✓ La arquitectura de ejecución distribuida sin estado permite escalamiento rápido y equilibrio de carga eficiente.

💲 Precios de la API
💰 $0.0315/1k caracteres
✨ Características principales de Aura-2
- ☀ Rendimiento en tiempo real: La latencia TTFB inferior a 200 ms garantiza conversaciones naturales y fluidas.
- ⏰ Generación rápida de audio: RTF de 0,111x, sintetizando 1 segundo de audio en poco más de 100 ms.
- 🔍 Precisión específica del dominio: Pronunciación superior para monedas, fechas, términos técnicos y más.
- 💻 Escalabilidad empresarial: Admite miles de sesiones simultáneas sin degradación de la latencia.
- 📧 Flexibilidad de implementación: Disponible a través de API REST y WebSocket; implementable en nubes privadas, VPC o en instalaciones locales.
- 🎤 Catálogo de voces amplias: Más de 40 voces profesionales adaptadas a diversos contextos y tonos.
- 🌐 Preparación multilingüe para el futuro: Principalmente inglés, con soporte multilingüe planificado.
🗣️ Descripción general de las variantes del modelo: voces en inglés
Deepgram Aura-2 ofrece un amplio catálogo de voces, cada una optimizada para el uso empresarial específico y las características de voz:
- aura-2-amaltea-es: Voz femenina cálida y accesible para atención al cliente.
- aura-2-andrómeda-uno: Voz masculina clara y autoritaria, adecuada para el ámbito financiero.
- aura-2-apollo-en: Voz masculina enérgica y juvenil para marketing y venta minorista.
- aura-2-arcas-en: Voz masculina tranquila y neutral, ideal para comunicaciones en el ámbito sanitario.
- aura-2-aries-uno: Voz masculina fuerte y segura para soporte técnico.
- aura-2-asteria-es: Voz femenina suave y cariñosa dirigida a la educación y la formación.
- aura-2-atenea-uno: Voz femenina profesional y articulada para los sectores legal y corporativo.
- aura-2-atlas-en: Voz masculina profunda y constante diseñada para la logística y el transporte.
- aura-2-aurora-es: Voz femenina brillante y clara para medios de comunicación y radiodifusión.
- aura-2-callista-en: Voz femenina amigable y atractiva para la interacción con el cliente.
- aura-2-cora-en: Voz femenina cálida y amigable, perfecta para la interacción con el cliente y el contenido educativo.
- aura-2-cordelia-en: Voz femenina clara y profesional ideal para capacitaciones corporativas y llamadas de soporte.
- aura-2-delia-en: Voz femenina tranquila y empática diseñada para aplicaciones de atención médica y bienestar.
- aura-2-draco-en: Voz masculina asertiva ideal para soporte técnico y servicios financieros.
- aura-2-electra-en: Voz femenina enérgica y dinámica para marketing y promociones minoristas.
- aura-2-harmonia-en: Voz femenina equilibrada que ofrece claridad y un tono relajante para los asistentes de voz.
- aura-2-helena-uno: Voz femenina articulada con tono corporativo, adecuada para el sector legal y empresarial.
- aura-2-aquí-uno: Voz femenina segura, ideal para módulos educativos y de formación.
- aura-2-hermes-en: Voz masculina clara y autoritaria, adecuada para comunicaciones ejecutivas y anuncios.
- aura-2-hyperion-es: Voz masculina profunda y estable diseñada para casos de uso logístico, de transporte e industriales.
- aura-2-iris-en: Voz femenina brillante y atractiva para contextos de medios y radiodifusión.
- aura-2-janus-uno: Voz masculina versátil adecuada para aplicaciones empresariales multipropósito.
- aura-2-juno-en: Voz femenina amigable y accesible para canales de servicio y soporte al cliente.
- aura-2-júpiter-uno: Voz masculina potente y segura, adaptada a servicios financieros y de asesoría.
- aura-2-luna-uno: Se prefiere una voz femenina suave y gentil en el ámbito sanitario y el coaching personal.
- aura-2-mars-es: Voz masculina fuerte y clara diseñada para entornos técnicos y operativos.
- aura-2-minerva-uno: Voz femenina inteligente y pulida, eficaz para entrenamiento y uso educativo.
- aura-2-neptuno-uno: Voz masculina tranquila ideal para aplicaciones de meditación y bienestar.
- aura-2-odysseus-es: Voz masculina de estilo narrativo diseñada para contar historias y visitas guiadas.
- aura-2-ophelia-es: Voz femenina cálida con entonación empática para industrias de servicios.
- aura-2-orion-en: Voz masculina atrevida para anuncios con autoridad y contextos industriales.
- aura-2-orfeo-uno: Voz masculina suave con tono artístico, adecuada para medios y aplicaciones creativas.
- aura-2-pandora-en: Voz femenina atractiva diseñada para marketing y promociones.
- aura-2-phoebe-uno: Voz femenina clara y profesional ideal para e-learning y comunicaciones corporativas.
- aura-2-plutón-uno: Voz masculina profunda con un comportamiento tranquilo, perfecta para narraciones y locuciones en off.
- aura-2-saturno-uno: Voz masculina fuerte adaptada a los sectores de atención al cliente y financiero.
- aura-2-selene-ona: Voz femenina suave ideal para aplicaciones de bienestar, atención plena y cuidado personal.
- aura-2-thalia-en: Voz femenina brillante y dinámica, ideal para contenido minorista y promocional.
- aura-2-theia-es: Voz femenina profesional adecuada para el ámbito sanitario y legal.
- aura-2-vesta-en: Voz femenina clara con ritmo constante diseñada para roles técnicos y de servicio al cliente.
- aura-2-zeus-uno: Voz masculina imponente y potente, perfecta para anuncios y presentaciones ejecutivas.
Cada voz está diseñada con cualidades tonales distintivas y adecuación al contexto empresarial, lo que garantiza que las empresas puedan seleccionar la voz perfecta para su identidad de marca y caso de uso.
🌍 Variantes de voz en español
- aura-2-celeste-es: Voz femenina en español clara y amigable para una amplia participación del cliente.
- aura-2-estrella-es: Voz femenina española cálida y articulada, adaptada para uso educativo y mediático.
- aura-2-nestor-es: Voz masculina asertiva en español diseñada para entornos profesionales y corporativos.
🎯 Casos de uso comunes
- 👤 Agentes de IA de voz conversacional en tiempo real
- 📞 Sistemas de respuesta de voz interactiva (IVR)
- 💬 Automatización de la atención al cliente
- 📢 Notificaciones transaccionales (recordatorios, alertas)
- 🔍 Asistentes de voz específicos del dominio que requieren una pronunciación precisa
- Implementaciones locales para entornos de datos confidenciales
🆚 Comparación con otros modelos
Deepgram Aura-2 frente a ElevenLabs Flash
Aura-2 destaca en uso empresarial en tiempo real Con una latencia constante inferior a 200 ms y una implementación flexible (incluyendo entornos locales y VPC), ElevenLabs Flash ofrece una generación muy rápida (tiempo de inicio de aproximadamente 75 ms), pero tiene restricciones de plan y es solo en la nube. Aura-2 también es aproximadamente... 40% más rentable para operaciones comerciales a gran escala.
Deepgram Aura-2 frente a OpenAI TTS
Aura-2 supera al TTS de OpenAI en rendimiento de latenciaMantiene una respuesta consistente por debajo de los 200 ms incluso con alta concurrencia, lo cual es crucial para agentes en vivo e IVR. El TTS de OpenAI prioriza la expresividad de la voz para aplicaciones offline o multimedia, sacrificando velocidad en tiempo real. La arquitectura de Aura-2 está optimizada para... rendimiento y escalabilidad en entornos empresariales exigentes.
Deepgram Aura-2 contra Cartesia Sonic
Aura-2 ofrece un coste por personaje más asequible y menor latencia que Cartesia Sonic, además de ser compatible con implementaciones distribuidas y locales. Cartesia Sonic se basa principalmente en la nube con una latencia más alta (~300 ms), lo que hace que Aura-2 sea más adecuado para casos de uso que requieren conversaciones rápidas y naturales. El entorno de ejecución especializado de Aura-2 proporciona Menor sobrecarga de infraestructura a escala.
❓ Preguntas frecuentes (FAQ)
P: ¿Qué hace que Aura-2 sea único en el panorama de los modelos de IA?
A: Aura-2 es una solución de texto a voz de vanguardia diseñada para aplicaciones empresariales que requieren síntesis de voz natural y en vivo. Su singularidad reside en su excepcional claridad, pronunciaciones precisas de dominio, opciones de implementación flexibles (en la nube o local) y una latencia consistente inferior a 200 ms, incluso con alta concurrencia.
P: ¿Qué capacidades específicas ofrece Aura-2 para la síntesis de voz en tiempo real?
A: Aura-2 ofrece una latencia de tiempo hasta el primer byte (TTFB) inferior a 200 ms y alcanza un factor de tiempo real (RTF) de 0,111x, lo que significa que genera un segundo de audio en poco más de 100 milisegundos. Esto garantiza un flujo conversacional natural y ultrarrápido, crucial para agentes de voz en vivo y sistemas IVR.
P: ¿Cómo maneja Aura-2 las pronunciaciones específicas del dominio?
A: Aura-2 está diseñado con una precisión de pronunciación superior para términos complejos, como monedas, fechas, jerga técnica, URL y direcciones, lo que lo hace ideal para aplicaciones empresariales especializadas donde la precisión es primordial.
P: ¿Cuáles son las opciones de implementación para Deepgram Aura-2?
A: Aura-2 ofrece una amplia flexibilidad de implementación. Se puede acceder a él mediante API REST y WebSocket, y se puede implementar en nubes públicas, nubes virtuales privadas (VPC) o completamente local para cumplir con requisitos específicos de seguridad, cumplimiento normativo y latencia.
P: ¿Cómo se compara Aura-2 en términos de relación costo-beneficio para un uso a gran escala?
R: Para aplicaciones empresariales a gran escala, Aura-2 es notablemente rentable. Por ejemplo, es aproximadamente un 40 % más económico por carácter en comparación con competidores como ElevenLabs Flash, a la vez que ofrece una latencia superior y una flexibilidad de implementación crucial para las necesidades empresariales.
Patio de juegos de IA



Acceso