qwen-bg
max-ico04
En
Afuera
max-ico02
Charlar
max-ico03
desactivar
Deepgram Nova-2
La API Deepgram Nova-2 ofrece precisión mejorada, soporte multilingüe y transcripción rápida en diversas aplicaciones.
Tokens gratis de $1 para nuevos miembros
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_nova-2-general',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_nova-2-general",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

Una API con más de 300 modelos de IA

Ahorre un 20% en costos y $1 en tokens gratis
qwenmax-bg
imagen
Deepgram Nova-2

Detalle del producto

🚀 Descubre Deepgram Nova-2: El futuro de la conversión de voz a texto

Deepgram Nova-2 se erige como un modelo innovador de reconocimiento automático de voz (ASR), diseñado por Deepgram Ofrece una precisión inigualable para audio pregrabado y en tiempo real en inglés. Establece un nuevo referente en la industria, ofreciendo un rendimiento superior al de sus predecesores y competidores.

Aspectos destacados del modelo:

  • Nombre del modelo: Nova-2
  • Revelador: Deepgram
  • Tipo de modelo: Reconocimiento automático de voz (ASR)

Ventaja de rendimiento:

  • 18% más preciso que los modelos Nova anteriores.
  • 🎯 Ofrece una Mejora relativa del WER del 36% sobre OpenAI Whisper (grande).

💡 Características principales de Nova-2

Nova-2 está diseñado con un conjunto de características diseñadas para satisfacer las rigurosas demandas de las aplicaciones de voz modernas:

  • 🌐 Capacidades multilingües: Amplíe su alcance con soporte para varios idiomas.
  • 📈 Alta precisión y tasa de error de palabras reducida (WER): Consiga una calidad de transcripción superior.
  • Tiempos de inferencia rápidos: Procese audio rápidamente para aplicaciones en tiempo real.
  • 💰 Precios competitivos: Benefíciese de soluciones de transcripción rentables.

🎯 Aplicaciones versátiles y modelos especializados

Deepgram Nova-2 está diseñado para una amplia gama de aplicaciones de voz, desde la transcripción en tiempo real hasta el análisis de medios. Para satisfacer las diversas necesidades de la industria, Nova-2 ofrece varias versiones altamente optimizadas:

Modelos generales y básicos:

  • nova-2 o nova-2-general: Modelo de propósito general para varios dominios.
  • nova-2-conversationalai: Ideal para IA conversacional.
  • nova-2-video: Optimizado para contenido de vídeo.

Optimizaciones específicas de la industria:

  • reunión nova-2: Diseñado para transcribir reuniones.
  • llamada telefónica nova-2: Específicamente para la transcripción de llamadas telefónicas.
  • nova-2-finanzas: Personalizado para contextos financieros.
  • nova-2-buzón de voz: Perfecto para mensajes de correo de voz.
  • nova-2-médico: Especializados en transcripción médica, logrando 16% mejor precisión Para términos médicos a una velocidad de 120 a 180 palabras por minuto. Descubre más sobre la IA en la atención médica. aquí.
  • nova-2-auto-servicio: Desarrollado para sistemas drive-thru.
  • nova-2-automotriz: Diseñado para entornos automotrices.

⚙️ Información técnica sobre Nova-2

Arquitectura:

Nova-2 se basa en un Arquitectura de vanguardia basada en TransformersEste diseño avanzado mejora significativamente el rendimiento, lo que da como resultado un Disminución del 18,4 % en la tasa de error de palabras (WER) En comparación con Nova-1, estas mejoras son cruciales para transcribir entidades (como nombres propios), puntuación y mayúsculas con alta precisión, tanto en audio en vivo como pregrabado.

Datos de entrenamiento:

El modelo se entrenó en el conjunto de datos más amplio y diverso de Deepgram hasta la fecha, utilizando casi 6 millones de recursos y 47 mil millones de tokensEste enorme conjunto de datos se enriquece con una colección completa de transcripciones humanas de alta calidad, lo que garantiza un aprendizaje sólido y preciso.

Métricas de rendimiento y velocidad:

Nova-2 presenta mejoras significativas en WER en comparación con modelos anteriores y competidores. Además, La velocidad es una ventaja crítica:Nova-2 logró un tiempo de inferencia medio de sólo 29,8 segundos por hora de audio diarioEsto lo hace De 5 a 40 veces más rápido que otros proveedores que ofrecen capacidades de diarización.

🛠️ Cómo usar Deepgram Nova-2

Ejemplos de código y SDK:

Ejemplo de integración: Utilice el fragmento `voice.stt` con `data-model="#g1_nova-2-general"` para necesidades generales de transcripción.

Tutoriales:

Sumérgete más profundamente con guías como: Experiencia multimodal de conversión de voz a texto en NodeJS

Restricciones técnicas:

  • 💾 Tamaño máximo de archivo: 2 GB
  • ⏱️ Límites de velocidad: 100 solicitudes simultáneas

⚖️ Consideraciones éticas para Nova-2

Deepgram se compromete con el desarrollo responsable de IA. Nova-2 se adhiere a estrictas normas éticas:

  • 🔒 Privacidad e IA ética: Estricta adhesión al desarrollo ético de la IA, enfatizando la privacidad de los datos y el uso responsable.
  • 🌍 Mitigación de sesgos: Esfuerzos continuos para garantizar la imparcialidad y la precisión en diversos patrones de habla, acentos y datos demográficos.

❓ Preguntas frecuentes (FAQ) sobre Deepgram Nova-2

P: ¿Qué es Deepgram Nova-2?

R: Deepgram Nova-2 es un modelo de reconocimiento automático de voz (ASR) de última generación diseñado para una transcripción de voz a texto altamente precisa de audio en inglés pregrabado y en streaming.

P: ¿Cómo se compara Nova-2 con otros modelos ASR como OpenAI Whisper?

R: Nova-2 cuenta con una mejora del 18 % en la precisión respecto de los modelos anteriores de Deepgram Nova y ofrece una mejora significativa del 36 % en la tasa de error de palabras (WER) relativa en comparación con OpenAI Whisper (grande).

P: ¿Existen versiones especializadas de Nova-2 para industrias específicas?

R: Sí, Deepgram Nova-2 viene con varias versiones optimizadas para casos de uso específicos, incluidas `nova-2-meeting`, `nova-2-phonecall`, `nova-2-finance`, `nova-2-medical` y más, cada una diseñada para lograr la máxima precisión en su respectivo dominio.

P: ¿Cuáles son las principales ventajas técnicas de Nova-2?

R: Nova-2 utiliza una arquitectura avanzada basada en Transformers, lo que resulta en una reducción del 18,4 % en el WER en comparación con Nova-1. Se entrenó con un extenso conjunto de datos de 47 000 millones de tokens y ofrece tiempos de inferencia extremadamente rápidos, de 5 a 40 veces más rápidos que los de la competencia en audio diario.

P: ¿Cómo aborda Deepgram las preocupaciones éticas con Nova-2?

R: Deepgram prioriza el desarrollo de IA ética, centrándose en reducir los sesgos, garantizar la privacidad y mantener la imparcialidad y la precisión en diversos patrones de habla y acentos a través de esfuerzos continuos y adhesión a pautas estrictas.

Patio de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Una API
Más de 300 modelos de IA

Ahorre un 20% en costos