Afuera

Charlar

desactivar

Aura 2

Gracias a su compatibilidad con alta concurrencia y precios rentables, Aura 2 permite interacciones de IA de voz fluidas, claras y con gran capacidad de respuesta para sectores como las finanzas, la sanidad y la atención al cliente.

Fichas de $1 gratis para nuevos miembros

Text to Speech

Javascript

Python

                                        const fs = require('fs');
const path = require('path');

const axios = require('axios').default;
const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post(
    '/tts',
    {
      model: '#g1_aura-2-amalthea-en',
      text: 'Hi! What are you doing today?',
    },
    { responseType: 'stream' },
  );

  const dist = path.resolve(__dirname, './audio.wav');
  const writeStream = fs.createWriteStream(dist);

  response.data.pipe(writeStream);

  writeStream.on('close', () => console.log('Audio saved to:', dist));
};

main();

                                        import os
import requests


def main():
    url = "https://api.ai.cc/v1/tts"
    headers = {
        "Authorization": "Bearer ",
    }
    payload = {
        "model": "#g1_aura-2-amalthea-en",
        "text": "Hi! What are you doing today?",
    }

    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.join(os.path.dirname(__file__), "audio.wav")

    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)

    print("Audio saved to:", dist)


main()

Docs

Más de 300 modelos de IA para OpenClaw y agentes de IA

Ahorra un 20% en costes y obtén fichas gratis de 1 $.

Obtén la clave API Explorar modelos

Aura 2

Detalles del producto

🌟 Aura-2 de Deepgram: Excelencia en conversión de texto a voz para empresas

Deepgram Aura-2 es un sistema de última generación solución de conversión de texto a voz (TTS) Diseñado específicamente para aplicaciones empresariales. Ofrece Síntesis de voz natural en directo con una claridad inigualable y pronunciaciones precisas y específicas del ámbito.

Diseñado para ofrecer flexibilidad, Aura-2 ofrece opciones de implementación versátiles, incluyendo entornos en la nube y locales, lo que garantiza la creación de voz instantánea y sensible al contexto para aplicaciones críticas como agentes de voz, sistemas de respuesta de voz interactiva (IVR) y conversaciones avanzadas de IA.

⚙️ Especificaciones técnicas

⚡ Latencia: Coherente
💻 Tecnología de inferencia: Arquitectura de transmisión en tiempo real acelerada por GPU con cuantización y poda para mayor eficiencia.
📈 Escalabilidad: El entorno de ejecución distribuido sin estado permite una escalabilidad rápida y sin cuellos de botella.
🔒 Seguridad: Diseñado teniendo en cuenta la implementación a nivel empresarial y el cumplimiento de la normativa sobre localización de datos.

📊 Puntos de referencia de rendimiento

✓ Logros Latencia TTFB inferior a 200 ms para una fluidez conversacional ultrarrápida.
✓ Factor de tiempo real (RTF) de 0,111x, generando 1 segundo de audio en ~100 milisegundos.
✓ Admite miles de sesiones simultáneas con baja latencia constante y una producción de alta calidad.
✓ Mantiene una varianza mínima y una latencia máxima baja incluso con alta concurrencia, algo fundamental para los agentes virtuales en tiempo real.
✓ Supera a muchos competidores. manteniéndose constantemente por debajo del umbral conversacional de 200 ms.
✓ Diseñado con acelerado por GPU y un entorno de ejecución empresarial optimizado para la transmisión en tiempo real, que permite una inferencia rápida.
✓ Implementación flexible en la nube, VPC o en las instalaciones para reducir los retrasos en la comunicación y cumplir con los requisitos de cumplimiento normativo.
✓ La arquitectura de tiempo de ejecución distribuida sin estado permite escalamiento rápido y un equilibrio de carga eficiente.

Comparativa de rendimiento de Deepgram Aura-2

Aura-2 supera sistemáticamente a sus competidores, como ElevenLabs y las soluciones TTS de OpenAI, en contextos empresariales donde la latencia es un factor crucial.

💲 Precios de API

💰 $0.0315/1k caracteres

✨ Características principales de Aura-2

☀ Rendimiento en tiempo real: Una latencia TTFB inferior a 200 ms garantiza conversaciones naturales y fluidas.
⏰ Generación de audio rápida: RTF de 0,111x, sintetizando 1 segundo de audio en poco más de 100 ms.
🔍 Precisión específica del dominio: Pronunciación superior para divisas, fechas, términos técnicos y más.
💻 Escalabilidad empresarial: Admite miles de sesiones simultáneas sin degradación de la latencia.
📧 Flexibilidad de despliegue: Disponible a través de API REST y WebSocket; se puede implementar en nubes privadas, VPC o en las instalaciones del cliente.
🎤 Catálogo de Broad Voice: Más de 40 voces profesionales adaptadas a diversos contextos y tonos.
🌐 Preparación para el futuro multilingüe: Principalmente en inglés, con planes de ofrecer soporte multilingüe.

🗣️ Resumen de variantes del modelo: Voces en inglés

Deepgram Aura-2 ofrece un amplio catálogo de voces, cada una optimizada para un uso empresarial y unas características de voz específicas:

aura-2-amalthea-en: Una voz femenina cálida y cercana para la atención al cliente.
aura-2-andrómeda-uno: Voz masculina clara y autoritaria, idónea para el ámbito financiero.
aura-2-apollo-en: Voz masculina enérgica y juvenil para marketing y venta minorista.
aura-2-arcas-en: Voz masculina tranquila y neutral, ideal para comunicaciones en el ámbito sanitario.
aura-2-aries-uno: Voz masculina fuerte y segura para soporte técnico.
aura-2-asteria-en: Voz femenina suave y cariñosa, dirigida al ámbito de la educación y la formación.
aura-2-atenea-una: Voz femenina profesional y elocuente para los sectores jurídico y corporativo.
aura-2-atlas-en: Voz masculina grave y firme, diseñada para la logística y el transporte.
aura-2-aurora-en: Voz femenina brillante y clara para medios de comunicación y radiodifusión.
aura-2-callista-en: Una voz femenina amable y atractiva para la interacción con el cliente.
aura-2-cora-en: Voz femenina cálida y amigable, perfecta para la interacción con el cliente y el contenido educativo.
aura-2-cordelia-en: Voz femenina clara y profesional, ideal para llamadas de formación y soporte corporativo.
aura-2-delia-en: Voz femenina tranquila y empática, diseñada para aplicaciones de salud y bienestar.
aura-2-draco-en: Voz masculina asertiva, ideal para soporte técnico y servicios financieros.
aura-2-electra-en: Voz femenina enérgica y dinámica para marketing y promociones minoristas.
aura-2-harmonia-en: Voz femenina equilibrada que ofrece claridad y un tono relajante para los asistentes de voz.
aura-2-helena-uno: Voz femenina articulada con tono corporativo, adecuada para los sectores jurídico y empresarial.
aura-2-aquí-uno: Voz femenina segura, ideal para módulos educativos y de formación.
aura-2-hermes-en: Voz masculina clara y autoritaria, idónea para comunicaciones y anuncios ejecutivos.
aura-2-hiperión-en: Voz masculina grave y firme, diseñada para aplicaciones en logística, transporte e industria.
aura-2-iris-en: Una voz femenina brillante y atractiva para contextos de medios de comunicación y radiodifusión.
aura-2-janus-uno: Voz masculina versátil, adecuada para aplicaciones empresariales multipropósito.
aura-2-juno-en: Voz femenina amable y accesible para los canales de atención al cliente y soporte.
aura-2-jupiter-uno: Voz masculina potente y segura, ideal para servicios financieros y de asesoramiento.
aura-2-luna-uno: Se prefiere una voz femenina suave y delicada en el ámbito de la atención médica y el coaching personal.
aura-2-mars-en: Voz masculina potente y clara, diseñada para entornos técnicos y operativos.
aura-2-minerva-one: Voz femenina inteligente y refinada, eficaz para la formación y el uso educativo.
aura-2-neptuno-uno: Voz masculina tranquila, ideal para aplicaciones de meditación y bienestar.
aura-2-odysseus-en: Voz masculina de estilo narrativo, diseñada para contar historias y realizar visitas guiadas.
aura-2-ophelia-en: Voz femenina cálida con entonación empática para el sector servicios.
aura-2-orion-en: Voz masculina contundente para anuncios autoritarios y contextos industriales.
aura-2-orfeo-uno: Voz masculina suave con tono artístico, adecuada para medios de comunicación y aplicaciones creativas.
aura-2-pandora-en: Voz femenina atractiva, diseñada para marketing y promociones.
aura-2-phoebe-one: Voz femenina clara y profesional, ideal para la formación online y las comunicaciones corporativas.
aura-2-pluto-uno: Voz masculina grave con un porte tranquilo, perfecta para narraciones y locuciones.
aura-2-saturno-uno: Voz masculina potente, adaptada al sector de atención al cliente y al sector financiero.
aura-2-selene-ona: Voz femenina suave, ideal para aplicaciones de bienestar, mindfulness y cuidado personal.
aura-2-thalia-en: Voz femenina brillante y dinámica, ideal para contenido promocional y de venta al por menor.
aura-2-theia-en: Voz femenina profesional, adecuada para los ámbitos sanitario y jurídico.
aura-2-vesta-en: Voz femenina clara con ritmo constante, diseñada para puestos técnicos y de atención al cliente.
aura-2-zeus-uno: Voz masculina imponente y potente, perfecta para anuncios y presentaciones ejecutivas.

Cada voz se elabora con cualidades tonales distintivas y se adapta al contexto empresarial, lo que garantiza que las empresas puedan seleccionar la voz perfecta para su identidad de marca y caso de uso.

🌍 Variantes de voz en español

aura-2-celeste-es: Voz femenina en español, clara y amigable, para una amplia interacción con los clientes.
aura-2-estrella-es: Voz femenina en español, cálida y elocuente, adaptada para uso educativo y mediático.
aura-2-nestor-es: Voz masculina en español, con carácter firme, diseñada para entornos profesionales y corporativos.

🎯 Casos de uso comunes

👤 Agentes de IA de voz conversacional en tiempo real
📞 Sistemas de respuesta de voz interactiva (IVR)
💬 Automatización de la atención al cliente
📢 Notificaciones transaccionales (recordatorios, alertas)
🔍 Asistentes de voz específicos de dominio que requieren una pronunciación precisa
🏠 Implementaciones locales para entornos de datos sensibles

🆚 Comparación con otros modelos

Deepgram Aura-2 vs. ElevenLabs Flash

Aura-2 destaca en uso empresarial en tiempo real con su latencia constante inferior a 200 ms y despliegue flexible (incluidos entornos locales y VPC). Si bien ElevenLabs Flash ofrece una generación muy rápida (tiempo de inicio de ~75 ms), tiene restricciones de plan y solo está disponible en la nube. Aura-2 también es aproximadamente 40% más rentable para operaciones comerciales a gran escala.

Deepgram Aura-2 vs. OpenAI TTS

Aura-2 supera al TTS de OpenAI en rendimiento de latencia, manteniendo una respuesta constante por debajo de los 200 ms incluso bajo alta concurrencia, lo cual es crucial para agentes en vivo y IVR. El TTS de OpenAI prioriza la expresividad de la voz para aplicaciones sin conexión o multimedia, sacrificando algo de velocidad en tiempo real. La arquitectura de Aura-2 está optimizada para rendimiento y escalabilidad en entornos empresariales exigentes.

Deepgram Aura-2 contra Cartesia Sonic

Aura-2 ofrece un costo por personaje más asequible y menor latencia que Cartesia Sonic, además de admitir implementaciones distribuidas y locales. Cartesia Sonic se basa principalmente en la nube con una latencia más alta (~300 ms), lo que hace que Aura-2 sea más adecuado para casos de uso que requieren conversaciones rápidas y naturales. El entorno de ejecución especializado de Aura-2 proporciona Menores costos generales de infraestructura a gran escala.

❓ Preguntas frecuentes (FAQ)

P: ¿Qué hace que Aura-2 sea único en el panorama de los modelos de IA?

A: Aura-2 es una solución de conversión de texto a voz de vanguardia diseñada para aplicaciones empresariales que requieren síntesis de voz natural y en tiempo real. Su singularidad reside en su excepcional claridad, pronunciación precisa de dominios específicos, opciones de implementación flexibles (en la nube o en las instalaciones) y una latencia constante inferior a 200 ms incluso con alta concurrencia.

P: ¿Qué capacidades específicas ofrece Aura-2 para la síntesis de voz en tiempo real?

A: Aura-2 ofrece una latencia de tiempo hasta el primer byte (TTFB) inferior a 200 ms y alcanza un factor de tiempo real (RTF) de 0,111x, lo que significa que genera 1 segundo de audio en poco más de 100 milisegundos. Esto garantiza una fluidez conversacional natural y de gran capacidad de respuesta, fundamental para los agentes de voz en directo y los sistemas IVR.

P: ¿Cómo gestiona Aura-2 las pronunciaciones específicas de cada dominio?

A: Aura-2 está diseñado con una precisión de pronunciación superior para términos complejos, incluidos los de moneda, fechas, jerga técnica, URL y direcciones, lo que lo hace ideal para aplicaciones empresariales especializadas donde la precisión es primordial.

P: ¿Cuáles son las opciones de despliegue para Deepgram Aura-2?

A: Aura-2 ofrece una gran flexibilidad de implementación. Se puede acceder a ella mediante API REST y WebSocket, y se puede implementar en nubes públicas, nubes privadas virtuales (VPC) o completamente en las instalaciones del cliente para cumplir con los requisitos específicos de seguridad, cumplimiento normativo y latencia.

P: ¿Cómo se compara Aura-2 en términos de rentabilidad para su uso a gran escala?

A: Para aplicaciones empresariales a gran escala, Aura-2 resulta notablemente rentable. Por ejemplo, es aproximadamente un 40 % más económico por carácter en comparación con algunos competidores como ElevenLabs Flash, a la vez que ofrece una latencia superior y una flexibilidad de implementación crucial para las necesidades empresariales.

Campo de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.

Pruébalo gratis

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos

Fichas de $1 gratis para nuevos miembros