qwen-bg
max-ico04
Em
Fora
max-ico02
Bater papo
max-ico03
desativar
Aura 2
Com suporte para alta simultaneidade e preços acessíveis, o Aura 2 possibilita interações de IA por voz perfeitas, claras e responsivas para setores como finanças, saúde e atendimento ao cliente.
Tokens de $1 grátis para novos membros
Text to Speech
                                        const fs = require('fs');
const path = require('path');

const axios = require('axios').default;
const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post(
    '/tts',
    {
      model: '#g1_aura-2-amalthea-en',
      text: 'Hi! What are you doing today?',
    },
    { responseType: 'stream' },
  );

  const dist = path.resolve(__dirname, './audio.wav');
  const writeStream = fs.createWriteStream(dist);

  response.data.pipe(writeStream);

  writeStream.on('close', () => console.log('Audio saved to:', dist));
};

main();

                                
                                        import os
import requests


def main():
    url = "https://api.ai.cc/v1/tts"
    headers = {
        "Authorization": "Bearer ",
    }
    payload = {
        "model": "#g1_aura-2-amalthea-en",
        "text": "Hi! What are you doing today?",
    }

    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.join(os.path.dirname(__file__), "audio.wav")

    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)

    print("Audio saved to:", dist)


main()
Docs

Uma API com mais de 300 modelos de IA

Economize 20% nos custos e ganhe tokens grátis de $1.
qwenmax-bg
imagem
Aura 2

Detalhes do produto

🌟 Aura-2 da Deepgram: Excelência em conversão de texto em fala para empresas

Deepgram's Aura-2 é de última geração solução de texto para fala (TTS) Projetado especificamente para aplicações empresariais. Ele oferece: síntese de voz natural ao vivo Com clareza incomparável e pronúncias precisas e específicas da área.

Projetado para oferecer flexibilidade, o Aura-2 oferece opções de implantação versáteis, incluindo ambientes em nuvem e locais, garantindo a criação instantânea de fala contextualizada para aplicações críticas como agentes de voz, sistemas de resposta de voz interativa (IVR) e conversas avançadas de IA.

⚙️ Especificações Técnicas

  • ⚡ Latência: Consistente
  • 💻 Tecnologia de Inferência: Arquitetura com aceleração por GPU, priorizando o streaming, com quantização e poda para maior eficiência.
  • 📈 Escalabilidade: Um ambiente de execução distribuído sem estado permite uma escalabilidade rápida e sem gargalos.
  • 🔒 Segurança: Desenvolvido com foco em implantação de nível empresarial e conformidade com a localidade dos dados.

📊 Indicadores de desempenho

  • ✓ Conquista Latência TTFB inferior a 200 ms Para um fluxo de conversação ultrarresponsivo.
  • ✓ Fator de Tempo Real (RTF) de 0,111x, gerando 1 segundo de áudio em aproximadamente 100 milissegundos.
  • ✓ Suporta milhares de sessões simultâneas com baixa latência consistente e resultados de alta qualidade.
  • ✓ Mantém variância mínima e baixa latência máxima mesmo sob alta concorrência, o que é crucial para agentes virtuais em tempo real.
  • Supera muitos concorrentes mantendo-se consistentemente abaixo do limite de conversação de 200ms.
  • ✓ Projetado com Acelerado por GPU e um ambiente de execução empresarial otimizado para streaming, visando inferência rápida.
  • ✓ Implantação flexível na nuvem, VPC ou em infraestrutura local para reduzir atrasos de ida e volta e atender aos requisitos de conformidade.
  • ✓ A arquitetura de tempo de execução distribuída sem estado permite escalonamento rápido e balanceamento de carga eficiente.
Comparação de desempenho do Deepgram Aura-2
O Aura-2 supera consistentemente concorrentes como as soluções TTS da ElevenLabs e da OpenAI em contextos empresariais sensíveis à latência.

💲 Preços da API

💰 US$ 0,0315/1.000 caracteres

✨ Principais características do Aura-2

  • Desempenho em tempo real: A latência TTFB inferior a 200 ms garante conversas naturais e fluidas.
  • Geração rápida de áudio: RTF de 0,111x, sintetizando 1 segundo de áudio em pouco mais de 100 ms.
  • 🔍 Precisão específica do domínio: Pronúncia superior para moedas, datas, termos técnicos e muito mais.
  • 💻 Escalabilidade empresarial: Suporta milhares de sessões simultâneas sem degradação da latência.
  • 📧 Flexibilidade de implantação: Disponível via APIs REST e WebSocket; implementável em nuvens privadas, VPCs ou em infraestruturas locais.
  • 🎤 Catálogo de Vozes Amplas: Mais de 40 vozes profissionais selecionadas para diversos contextos e tons.
  • 🌐 Preparação para o futuro multilíngue: Principalmente inglês, com suporte multilíngue planejado.

🗣️ Visão geral das variantes do modelo: vozes em inglês

O Deepgram Aura-2 oferece um rico catálogo de vozes, cada uma otimizada para uso empresarial específico e características de voz:

  • aura-2-amalthea-en: Voz feminina acolhedora e acessível para atendimento ao cliente.
  • aura-2-andromeda-ona: Voz masculina clara e autoritária, adequada para o setor financeiro.
  • aura-2-apollo-en: Voz masculina, enérgica e jovial, para marketing e varejo.
  • aura-2-arcas-en: Voz masculina calma e neutra, ideal para comunicações na área da saúde.
  • aura-2-áries-um: Voz masculina forte e confiante para suporte técnico.
  • aura-2-asteria-en: Voz feminina suave e carinhosa, voltada para educação e treinamento.
  • aura-2-athena-one: Voz feminina profissional e eloquente para os setores jurídico e corporativo.
  • aura-2-atlas-en: Voz masculina grave e firme, ideal para logística e transporte.
  • aura-2-aurora-en: Voz feminina clara e nítida para mídia e radiodifusão.
  • aura-2-callista-en: Voz feminina amigável e envolvente para interação com o cliente.
  • aura-2-cora-en: Voz feminina calorosa e amigável, perfeita para interação com clientes e conteúdo educativo.
  • aura-2-cordelia-en: Voz feminina clara e profissional, ideal para treinamentos corporativos e chamadas de suporte.
  • aura-2-delia-en: Voz feminina calma e empática, ideal para aplicações na área da saúde e bem-estar.
  • aura-2-draco-en: Voz masculina assertiva, ideal para suporte técnico e serviços financeiros.
  • aura-2-electra-en: Voz feminina enérgica e dinâmica para marketing e promoções no varejo.
  • aura-2-harmonia-en: Voz feminina equilibrada, que oferece clareza e um tom suave para assistentes de voz.
  • aura-2-helena-um: Voz feminina articulada com tom corporativo, adequada para os setores jurídico e empresarial.
  • aura-2-aqui-um: Voz feminina confiante, ideal para módulos de educação e treinamento.
  • aura-2-hermes-en: Voz masculina clara e imponente, ideal para comunicações e anúncios executivos.
  • aura-2-hiperion-en: Voz masculina grave e firme, ideal para aplicações em logística, transporte e indústria.
  • aura-2-iris-en: Uma voz feminina brilhante e cativante para contextos de mídia e radiodifusão.
  • aura-2-janus-um: Voz masculina versátil, adequada para diversas aplicações empresariais.
  • aura-2-juno-en: Voz feminina amigável e acessível para canais de atendimento e suporte ao cliente.
  • aura-2-jupiter-one: Voz masculina poderosa e confiante, ideal para serviços financeiros e de consultoria.
  • aura-2-luna-um: Voz feminina suave e delicada é preferível em contextos de saúde e coaching pessoal.
  • aura-2-marte-en: Voz masculina forte e clara, ideal para ambientes técnicos e operacionais.
  • aura-2-minerva-um: Voz feminina inteligente e refinada, eficaz para treinamento e uso educacional.
  • aura-2-netuno-um: Voz masculina calma, ideal para aplicativos de meditação e bem-estar.
  • aura-2-odysseus-en: Voz masculina em estilo narrativo, ideal para contar histórias e fazer visitas guiadas.
  • aura-2-ophelia-en: Voz feminina calorosa e com entonação empática, ideal para o setor de serviços.
  • aura-2-orion-en: Voz masculina imponente para anúncios formais e contextos industriais.
  • aura-2-orfeu-um: Voz masculina suave com tom artístico, adequada para aplicações criativas e de mídia.
  • aura-2-pandora-en: Voz feminina envolvente, criada especificamente para marketing e promoções.
  • aura-2-phoebe-one: Voz feminina clara e profissional, ideal para e-learning e comunicações corporativas.
  • aura-2-pluto-um: Voz masculina grave com um semblante calmo, perfeita para narração e locução.
  • aura-2-saturno-um: Voz masculina forte, ideal para atendimento ao cliente e para os setores financeiro.
  • aura-2-selene-ona: Voz feminina suave, ideal para aplicativos de bem-estar, atenção plena e cuidados pessoais.
  • aura-2-thalia-en: Voz feminina brilhante e dinâmica, ótima para conteúdo promocional e de varejo.
  • aura-2-theia-en: Voz feminina profissional adequada para as áreas da saúde e jurídica.
  • aura-2-vesta-en: Voz feminina clara e com ritmo constante, ideal para funções técnicas e de atendimento ao cliente.
  • aura-2-zeus-um: Voz masculina imponente e poderosa, perfeita para anúncios e apresentações executivas.

Cada voz é elaborada com qualidades tonais distintas e adequação ao contexto empresarial, garantindo que as empresas possam selecionar a voz perfeita para sua identidade de marca e caso de uso.

🌍 Variações de voz em espanhol

  • aura-2-celeste-es: Voz feminina em espanhol clara e amigável para ampla interação com o cliente.
  • aura-2-estrelas-es: Voz feminina em espanhol, calorosa e articulada, ideal para uso educacional e midiático.
  • aura-2-nestor-es: Voz masculina em espanhol, assertiva, ideal para ambientes profissionais e corporativos.

🎯 Casos de uso comuns

  • 👤 Agentes de IA de voz conversacionais em tempo real
  • 📞 Sistemas de Resposta de Voz Interativa (IVR)
  • 💬 Automação do suporte ao cliente
  • 📢 Notificações transacionais (lembretes, alertas)
  • 🔍 Assistentes de voz específicos para determinados domínios que exigem pronúncia precisa
  • 🏠 Implantações locais para ambientes de dados sensíveis

🆚 Comparação com outros modelos

Deepgram Aura-2 vs. ElevenLabs Flash

Aura-2 se destaca em uso empresarial em tempo real Com sua latência consistente abaixo de 200 ms e implantação flexível (incluindo on-premises e VPC), o ElevenLabs Flash oferece geração muito rápida (tempo de inicialização de aproximadamente 75 ms), porém com restrições de plano e disponível apenas em nuvem. O Aura-2 também é aproximadamente 40% mais econômico para operações comerciais de grande escala.

Deepgram Aura-2 vs. OpenAI TTS

Aura-2 supera o TTS da OpenAI em desempenho de latência, mantendo uma resposta consistente abaixo de 200 ms mesmo sob alta concorrência, o que é crucial para agentes ao vivo e IVRs. O TTS da OpenAI prioriza a expressividade da voz para aplicações offline ou de mídia, sacrificando um pouco da velocidade em tempo real. A arquitetura do Aura-2 é otimizada para capacidade de processamento e escalabilidade Em ambientes empresariais exigentes.

Deepgram Aura-2 vs. Cartesia Sonic

Aura-2 oferece um custo por personagem mais acessível e menor latência do que o Cartesia Sonic, além de suportar implantações distribuídas e locais. O Cartesia Sonic é baseado principalmente em nuvem, com maior latência (~300 ms), tornando o Aura-2 mais adequado para casos de uso que exigem conversas rápidas e naturais. O ambiente de execução especializado do Aura-2 proporciona Reduzir os custos de infraestrutura em grande escala..

❓ Perguntas frequentes (FAQ)

P: O que torna o Aura-2 único no cenário dos modelos de IA?

A: O Aura-2 é uma solução de conversão de texto em fala de última geração, criada para aplicações empresariais que exigem síntese de voz natural em tempo real. Sua singularidade reside na excepcional clareza, pronúncia precisa de acordo com o domínio, opções flexíveis de implantação (nuvem ou local) e latência consistente abaixo de 200 ms, mesmo sob alta concorrência.

P: Quais são as funcionalidades específicas que o Aura-2 oferece para síntese de voz em tempo real?

A: O Aura-2 oferece latência de tempo até o primeiro byte (TTFB) inferior a 200 ms e atinge um fator de tempo real (RTF) de 0,111x, o que significa que gera 1 segundo de áudio em pouco mais de 100 milissegundos. Isso garante um fluxo de conversação natural e ultrarresponsivo, crucial para agentes de voz ao vivo e sistemas de URA (Unidade de Resposta Audível).

P: Como o Aura-2 lida com pronúncias específicas de domínio?

A: O Aura-2 foi projetado com precisão de pronúncia superior para termos complexos, incluindo moedas, datas, jargões técnicos, URLs e endereços, tornando-o ideal para aplicações empresariais especializadas onde a precisão é fundamental.

P: Quais são as opções de implantação para o Deepgram Aura-2?

A: O Aura-2 oferece ampla flexibilidade de implantação. Ele pode ser acessado por meio de APIs REST e WebSocket e pode ser implantado em nuvens públicas, nuvens privadas virtuais (VPCs) ou totalmente em infraestruturas locais para atender a requisitos específicos de segurança, conformidade e latência.

P: Como o Aura-2 se compara em termos de custo-benefício para uso em larga escala?

A: Para aplicações empresariais de grande escala, o Aura-2 é notavelmente econômico. Por exemplo, é aproximadamente 40% mais acessível por caractere em comparação com alguns concorrentes, como o ElevenLabs Flash, além de oferecer latência superior e flexibilidade de implantação, cruciais para as necessidades corporativas.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.
Experimente grátis
api-right-1
modelo-bg02-1

Uma API
Mais de 300 modelos de IA

Economize 20% nos custos