qwen-bg
max-ico04
En
Afuera
max-ico02
Charlar
max-ico03
desactivar
Aura 2
Con un alto soporte de concurrencia y precios rentables, Aura 2 permite interacciones de inteligencia artificial de voz fluidas, claras y receptivas para industrias como finanzas, atención médica y atención al cliente.
Tokens gratis de $1 para nuevos miembros
Text to Speech
                                        const fs = require('fs');
const path = require('path');

const axios = require('axios').default;
const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post(
    '/tts',
    {
      model: '#g1_aura-2-amalthea-en',
      text: 'Hi! What are you doing today?',
    },
    { responseType: 'stream' },
  );

  const dist = path.resolve(__dirname, './audio.wav');
  const writeStream = fs.createWriteStream(dist);

  response.data.pipe(writeStream);

  writeStream.on('close', () => console.log('Audio saved to:', dist));
};

main();

                                
                                        import os
import requests


def main():
    url = "https://api.ai.cc/v1/tts"
    headers = {
        "Authorization": "Bearer ",
    }
    payload = {
        "model": "#g1_aura-2-amalthea-en",
        "text": "Hi! What are you doing today?",
    }

    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.join(os.path.dirname(__file__), "audio.wav")

    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)

    print("Audio saved to:", dist)


main()
Docs

Una API con más de 300 modelos de IA

Ahorre un 20% en costos y $1 en tokens gratis
qwenmax-bg
imagen
Aura 2

Detalle del producto

🌟 Aura-2 de Deepgram: Excelencia en la conversión de texto a voz empresarial

Deepgram's Aura-2 es un dispositivo de última generación solución de texto a voz (TTS) Diseñado específicamente para aplicaciones empresariales. Ofrece síntesis de voz natural y en vivo con una claridad incomparable y pronunciaciones precisas y específicas del dominio.

Diseñado para la flexibilidad, Aura-2 ofrece opciones de implementación versátiles, incluidos entornos locales y en la nube, lo que garantiza la creación de voz instantánea y sensible al contexto para aplicaciones críticas como agentes de voz, sistemas de respuesta de voz interactiva (IVR) y conversaciones de IA avanzadas.

⚙️ Especificaciones técnicas

  • ⚡ Latencia: Coherente
  • Tecnología de inferencia: Arquitectura de transmisión acelerada por GPU con cuantificación y poda para lograr eficiencia.
  • 📈 Escalabilidad: El tiempo de ejecución distribuido sin estado permite un escalamiento rápido y sin cuellos de botella.
  • 🔒 Seguridad: Diseñado teniendo en cuenta la implementación de nivel empresarial y el cumplimiento de la localidad de datos.

📊 Puntos de referencia de rendimiento

  • ✓ Logra Latencia TTFB inferior a 200 ms para un flujo de conversación ultra sensible.
  • ✓ Factor de tiempo real (RTF) de 0,111x, generando 1 segundo de audio en ~100 milisegundos.
  • ✓ Admite miles de sesiones simultáneas con baja latencia constante y resultados de alta calidad.
  • ✓ Mantiene una variación mínima y una latencia máxima baja incluso bajo alta concurrencia, algo fundamental para agentes virtuales en tiempo real.
  • Supera a muchos competidores manteniéndose consistentemente por debajo del umbral de conversación de 200 ms.
  • ✓ Diseñado con Acelerado por GPU y Enterprise Runtime optimizado con prioridad de transmisión para una inferencia rápida.
  • ✓ Implementación flexible en la nube, VPC o en las instalaciones locales para reducir los retrasos de ida y vuelta y satisfacer las necesidades de cumplimiento.
  • ✓ La arquitectura de ejecución distribuida sin estado permite escalamiento rápido y equilibrio de carga eficiente.
Comparación del rendimiento de Deepgram Aura-2
Aura-2 supera consistentemente a competidores como ElevenLabs y las soluciones TTS de OpenAI en contextos empresariales sensibles a la latencia.

💲 Precios de la API

💰 $0.0315/1k caracteres

✨ Características principales de Aura-2

  • Rendimiento en tiempo real: La latencia TTFB inferior a 200 ms garantiza conversaciones naturales y fluidas.
  • Generación rápida de audio: RTF de 0,111x, sintetizando 1 segundo de audio en poco más de 100 ms.
  • 🔍 Precisión específica del dominio: Pronunciación superior para monedas, fechas, términos técnicos y más.
  • 💻 Escalabilidad empresarial: Admite miles de sesiones simultáneas sin degradación de la latencia.
  • 📧 Flexibilidad de implementación: Disponible a través de API REST y WebSocket; implementable en nubes privadas, VPC o en instalaciones locales.
  • 🎤 Catálogo de voces amplias: Más de 40 voces profesionales adaptadas a diversos contextos y tonos.
  • 🌐 Preparación multilingüe para el futuro: Principalmente inglés, con soporte multilingüe planificado.

🗣️ Descripción general de las variantes del modelo: voces en inglés

Deepgram Aura-2 ofrece un amplio catálogo de voces, cada una optimizada para el uso empresarial específico y las características de voz:

  • aura-2-amaltea-es: Voz femenina cálida y accesible para atención al cliente.
  • aura-2-andrómeda-uno: Voz masculina clara y autoritaria, adecuada para el ámbito financiero.
  • aura-2-apollo-en: Voz masculina enérgica y juvenil para marketing y venta minorista.
  • aura-2-arcas-en: Voz masculina tranquila y neutral, ideal para comunicaciones en el ámbito sanitario.
  • aura-2-aries-uno: Voz masculina fuerte y segura para soporte técnico.
  • aura-2-asteria-es: Voz femenina suave y cariñosa dirigida a la educación y la formación.
  • aura-2-atenea-uno: Voz femenina profesional y articulada para los sectores legal y corporativo.
  • aura-2-atlas-en: Voz masculina profunda y constante diseñada para la logística y el transporte.
  • aura-2-aurora-es: Voz femenina brillante y clara para medios de comunicación y radiodifusión.
  • aura-2-callista-en: Voz femenina amigable y atractiva para la interacción con el cliente.
  • aura-2-cora-en: Voz femenina cálida y amigable, perfecta para la interacción con el cliente y el contenido educativo.
  • aura-2-cordelia-en: Voz femenina clara y profesional ideal para capacitaciones corporativas y llamadas de soporte.
  • aura-2-delia-en: Voz femenina tranquila y empática diseñada para aplicaciones de atención médica y bienestar.
  • aura-2-draco-en: Voz masculina asertiva ideal para soporte técnico y servicios financieros.
  • aura-2-electra-en: Voz femenina enérgica y dinámica para marketing y promociones minoristas.
  • aura-2-harmonia-en: Voz femenina equilibrada que ofrece claridad y un tono relajante para los asistentes de voz.
  • aura-2-helena-uno: Voz femenina articulada con tono corporativo, adecuada para el sector legal y empresarial.
  • aura-2-aquí-uno: Voz femenina segura, ideal para módulos educativos y de formación.
  • aura-2-hermes-en: Voz masculina clara y autoritaria, adecuada para comunicaciones ejecutivas y anuncios.
  • aura-2-hyperion-es: Voz masculina profunda y estable diseñada para casos de uso logístico, de transporte e industriales.
  • aura-2-iris-en: Voz femenina brillante y atractiva para contextos de medios y radiodifusión.
  • aura-2-janus-uno: Voz masculina versátil adecuada para aplicaciones empresariales multipropósito.
  • aura-2-juno-en: Voz femenina amigable y accesible para canales de servicio y soporte al cliente.
  • aura-2-júpiter-uno: Voz masculina potente y segura, adaptada a servicios financieros y de asesoría.
  • aura-2-luna-uno: Se prefiere una voz femenina suave y gentil en el ámbito sanitario y el coaching personal.
  • aura-2-mars-es: Voz masculina fuerte y clara diseñada para entornos técnicos y operativos.
  • aura-2-minerva-uno: Voz femenina inteligente y pulida, eficaz para entrenamiento y uso educativo.
  • aura-2-neptuno-uno: Voz masculina tranquila ideal para aplicaciones de meditación y bienestar.
  • aura-2-odysseus-es: Voz masculina de estilo narrativo diseñada para contar historias y visitas guiadas.
  • aura-2-ophelia-es: Voz femenina cálida con entonación empática para industrias de servicios.
  • aura-2-orion-en: Voz masculina atrevida para anuncios con autoridad y contextos industriales.
  • aura-2-orfeo-uno: Voz masculina suave con tono artístico, adecuada para medios y aplicaciones creativas.
  • aura-2-pandora-en: Voz femenina atractiva diseñada para marketing y promociones.
  • aura-2-phoebe-uno: Voz femenina clara y profesional ideal para e-learning y comunicaciones corporativas.
  • aura-2-plutón-uno: Voz masculina profunda con un comportamiento tranquilo, perfecta para narraciones y locuciones en off.
  • aura-2-saturno-uno: Voz masculina fuerte adaptada a los sectores de atención al cliente y financiero.
  • aura-2-selene-ona: Voz femenina suave ideal para aplicaciones de bienestar, atención plena y cuidado personal.
  • aura-2-thalia-en: Voz femenina brillante y dinámica, ideal para contenido minorista y promocional.
  • aura-2-theia-es: Voz femenina profesional adecuada para el ámbito sanitario y legal.
  • aura-2-vesta-en: Voz femenina clara con ritmo constante diseñada para roles técnicos y de servicio al cliente.
  • aura-2-zeus-uno: Voz masculina imponente y potente, perfecta para anuncios y presentaciones ejecutivas.

Cada voz está diseñada con cualidades tonales distintivas y adecuación al contexto empresarial, lo que garantiza que las empresas puedan seleccionar la voz perfecta para su identidad de marca y caso de uso.

🌍 Variantes de voz en español

  • aura-2-celeste-es: Voz femenina en español clara y amigable para una amplia participación del cliente.
  • aura-2-estrella-es: Voz femenina española cálida y articulada, adaptada para uso educativo y mediático.
  • aura-2-nestor-es: Voz masculina asertiva en español diseñada para entornos profesionales y corporativos.

🎯 Casos de uso comunes

  • 👤 Agentes de IA de voz conversacional en tiempo real
  • 📞 Sistemas de respuesta de voz interactiva (IVR)
  • 💬 Automatización de la atención al cliente
  • 📢 Notificaciones transaccionales (recordatorios, alertas)
  • 🔍 Asistentes de voz específicos del dominio que requieren una pronunciación precisa
  • Implementaciones locales para entornos de datos confidenciales

🆚 Comparación con otros modelos

Deepgram Aura-2 frente a ElevenLabs Flash

Aura-2 destaca en uso empresarial en tiempo real Con una latencia constante inferior a 200 ms y una implementación flexible (incluyendo entornos locales y VPC), ElevenLabs Flash ofrece una generación muy rápida (tiempo de inicio de aproximadamente 75 ms), pero tiene restricciones de plan y es solo en la nube. Aura-2 también es aproximadamente... 40% más rentable para operaciones comerciales a gran escala.

Deepgram Aura-2 frente a OpenAI TTS

Aura-2 supera al TTS de OpenAI en rendimiento de latenciaMantiene una respuesta consistente por debajo de los 200 ms incluso con alta concurrencia, lo cual es crucial para agentes en vivo e IVR. El TTS de OpenAI prioriza la expresividad de la voz para aplicaciones offline o multimedia, sacrificando velocidad en tiempo real. La arquitectura de Aura-2 está optimizada para... rendimiento y escalabilidad en entornos empresariales exigentes.

Deepgram Aura-2 contra Cartesia Sonic

Aura-2 ofrece un coste por personaje más asequible y menor latencia que Cartesia Sonic, además de ser compatible con implementaciones distribuidas y locales. Cartesia Sonic se basa principalmente en la nube con una latencia más alta (~300 ms), lo que hace que Aura-2 sea más adecuado para casos de uso que requieren conversaciones rápidas y naturales. El entorno de ejecución especializado de Aura-2 proporciona Menor sobrecarga de infraestructura a escala.

❓ Preguntas frecuentes (FAQ)

P: ¿Qué hace que Aura-2 sea único en el panorama de los modelos de IA?

A: Aura-2 es una solución de texto a voz de vanguardia diseñada para aplicaciones empresariales que requieren síntesis de voz natural y en vivo. Su singularidad reside en su excepcional claridad, pronunciaciones precisas de dominio, opciones de implementación flexibles (en la nube o local) y una latencia consistente inferior a 200 ms, incluso con alta concurrencia.

P: ¿Qué capacidades específicas ofrece Aura-2 para la síntesis de voz en tiempo real?

A: Aura-2 ofrece una latencia de tiempo hasta el primer byte (TTFB) inferior a 200 ms y alcanza un factor de tiempo real (RTF) de 0,111x, lo que significa que genera un segundo de audio en poco más de 100 milisegundos. Esto garantiza un flujo conversacional natural y ultrarrápido, crucial para agentes de voz en vivo y sistemas IVR.

P: ¿Cómo maneja Aura-2 las pronunciaciones específicas del dominio?

A: Aura-2 está diseñado con una precisión de pronunciación superior para términos complejos, como monedas, fechas, jerga técnica, URL y direcciones, lo que lo hace ideal para aplicaciones empresariales especializadas donde la precisión es primordial.

P: ¿Cuáles son las opciones de implementación para Deepgram Aura-2?

A: Aura-2 ofrece una amplia flexibilidad de implementación. Se puede acceder a él mediante API REST y WebSocket, y se puede implementar en nubes públicas, nubes virtuales privadas (VPC) o completamente local para cumplir con requisitos específicos de seguridad, cumplimiento normativo y latencia.

P: ¿Cómo se compara Aura-2 en términos de relación costo-beneficio para un uso a gran escala?

R: Para aplicaciones empresariales a gran escala, Aura-2 es notablemente rentable. Por ejemplo, es aproximadamente un 40 % más económico por carácter en comparación con competidores como ElevenLabs Flash, a la vez que ofrece una latencia superior y una flexibilidad de implementación crucial para las necesidades empresariales.

Patio de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Una API
Más de 300 modelos de IA

Ahorre un 20% en costos