Fora

Bater papo

desativar

Deepgram Nova-2

A API Deepgram Nova-2 apresenta maior precisão, suporte multilíngue e transcrição rápida em diversas aplicações.

Tokens de $1 grátis para novos membros

Text to Speech

Javascript

Python

                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_nova-2-general',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();

                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_nova-2-general",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()

Docs

Mais de 300 modelos de IA para OpenClaw e agentes de IA

Economize 20% nos custos e ganhe tokens grátis de $1.

Obter chave de API Explorar modelos

Deepgram Nova-2

Detalhes do produto

🚀 Descubra o Deepgram Nova-2: O futuro da conversão de voz em texto

O Deepgram Nova-2 se destaca como um modelo inovador de Reconhecimento Automático de Fala (ASR), desenvolvido por Deepgram Oferece precisão incomparável tanto para áudio pré-gravado quanto para streaming em tempo real em inglês. Estabelece um novo padrão na indústria, oferecendo um salto significativo em desempenho em relação aos seus antecessores e concorrentes.

Destaques do modelo:

Nome do modelo: Nova-2
Desenvolvedor: Deepgram
Tipo de modelo: Reconhecimento automático de fala (ASR)

Vantagem de desempenho:

✨ 18% mais preciso do que os modelos Nova anteriores.
🎯 Oferece um Melhoria relativa de 36% no WER sobre o OpenAI Whisper (grande).

💡 Principais características do Nova-2

O Nova-2 foi projetado com um conjunto de recursos desenvolvidos para atender às exigências rigorosas das aplicações de voz modernas:

🌐 Capacidades multilíngues: Amplie seu alcance com suporte para vários idiomas.
📈 Alta precisão e taxa reduzida de erros de palavras (WER): Obtenha uma qualidade de transcrição superior.
⚡ Tempos de inferência rápidos: Processe áudio rapidamente para aplicações em tempo real.
💰 Preços competitivos: Aproveite as vantagens das soluções de transcrição com excelente custo-benefício.

🎯 Aplicações versáteis e modelos especializados

O Deepgram Nova-2 foi projetado para uma ampla gama de aplicações de voz, desde transcrição em tempo real até análise de mídia. Para atender às diversas necessidades do setor, o Nova-2 oferece várias versões altamente otimizadas:

Modelos gerais e principais:

nova-2 ou nova-2-geral: Modelo de uso geral para diversos domínios.
nova-2-conversationalai: Ideal para IA conversacional.
nova-2-video: Otimizado para conteúdo de vídeo.

Otimizações específicas para cada setor:

nova-2-reunião: Feito sob medida para a transcrição de reuniões.
nova-2-chamada telefônica: Especificamente para transcrição de chamadas telefônicas.
nova-2-finance: Adaptado para contextos financeiros.
nova-2-correio de voz: Ideal para mensagens de correio de voz.
nova-2-medical: Especializada em transcrição médica, alcançando 16% mais precisão Para termos médicos, a uma velocidade de 120 a 180 palavras por minuto. Explore mais sobre IA na área da saúde. aqui.
nova-2-drivethru: Desenvolvido para sistemas de drive-thru.
nova-2-automotivo: Projetado para ambientes automotivos.

⚙️ Informações técnicas sobre o Nova-2

Arquitetura:

Nova-2 é construído sobre um arquitetura de ponta baseada em TransformerEste design avançado melhora significativamente o desempenho, resultando em Redução de 18,4% na taxa de erros de palavras (WER) Em comparação com o Nova-1, essas melhorias são cruciais para a transcrição de entidades (como nomes próprios), pontuação e capitalização com alta precisão, tanto em áudio ao vivo quanto em áudio pré-gravado.

Dados de treinamento:

O modelo foi treinado no conjunto de dados mais extenso e diversificado da Deepgram até o momento, utilizando quase 6 milhões de recursos e 47 bilhões de tokensEste conjunto de dados massivo é enriquecido com uma coleção abrangente de transcrições humanas de alta qualidade, garantindo um aprendizado robusto e preciso.

Métricas de desempenho e velocidade:

O Nova-2 apresenta melhorias significativas na taxa de erro de palavras (WER) em comparação com modelos anteriores e concorrentes. Além disso, A velocidade é uma vantagem crucial.O Nova-2 alcançou um tempo médio de inferência de apenas 29,8 segundos por hora de áudio gravado em diárioIsso faz com que De 5 a 40 vezes mais rápido do que outros fornecedores que oferecem recursos de diarização.

🛠️ Como usar o Deepgram Nova-2

Exemplos de código e SDK:

Exemplo de integração: Use o trecho `voice.stt` com `data-model="#g1_nova-2-general"` para necessidades gerais de transcrição.

Tutoriais:

Aprofunde seus conhecimentos com guias como: Experiência multimodal de conversão de fala em texto em NodeJS

Restrições técnicas:

💾 Tamanho máximo do arquivo: 2 GB
⏱️ Limites de taxa: 100 solicitações simultâneas

⚖️ Considerações éticas para o Nova-2

A Deepgram está comprometida com o desenvolvimento responsável de IA. A Nova-2 segue diretrizes éticas rigorosas:

🔒 Privacidade e IA Ética: Rigorosa adesão ao desenvolvimento ético de IA, com ênfase na privacidade dos dados e no uso responsável.
🌍 Mitigação de Viés: Esforços contínuos para garantir imparcialidade e precisão em diversos padrões de fala, sotaques e grupos demográficos.

❓ Perguntas frequentes (FAQ) sobre o Deepgram Nova-2

P: O que é Deepgram Nova-2?

A: O Deepgram Nova-2 é um modelo de Reconhecimento Automático de Fala (ASR) de última geração, projetado para transcrição de fala em texto com alta precisão, tanto de áudio pré-gravado quanto de áudio em inglês transmitido por streaming.

P: Como o Nova-2 se compara a outros modelos de reconhecimento automático de fala, como o OpenAI Whisper?

A: O Nova-2 apresenta uma melhoria de 18% na precisão em relação aos modelos Deepgram Nova anteriores e oferece uma melhoria significativa de 36% na taxa de erro de palavras (WER) em comparação com o OpenAI Whisper (grande).

P: Existem versões especializadas do Nova-2 para setores específicos?

R: Sim, o Deepgram Nova-2 vem com diversas versões otimizadas para casos de uso específicos, incluindo `nova-2-meeting`, `nova-2-phonecall`, `nova-2-finance`, `nova-2-medical` e outras, cada uma adaptada para máxima precisão em seu respectivo domínio.

P: Quais são as principais vantagens técnicas do Nova-2?

A: O Nova-2 utiliza uma arquitetura avançada baseada em Transformers, resultando em uma redução de 18,4% na taxa de erro de palavras (WER) em comparação com o Nova-1. Ele foi treinado em um extenso conjunto de dados de 47 bilhões de tokens e oferece tempos de inferência extremamente rápidos, sendo de 5 a 40 vezes mais rápido que os concorrentes para áudio diarizado.

P: Como a Deepgram aborda as preocupações éticas com o Nova-2?

A: A Deepgram prioriza o desenvolvimento ético de IA, concentrando-se na redução de vieses, na garantia da privacidade e na manutenção da imparcialidade e precisão em diversos padrões de fala e sotaques, por meio de esforços contínuos e da adesão a diretrizes rigorosas.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Experimente grátis

Mais de 300 modelos de IA para
OpenClaw e Agentes de IA

Economize 20% nos custos