qwen-bg
ico máximo04
En
Afuera
ico-máximo02
Charlar
ico-máximo03
desactivar
Deepgram Nova-2
La API Deepgram Nova-2 ofrece mayor precisión, compatibilidad multilingüe y transcripción rápida en diversas aplicaciones.
Fichas de $1 gratis para nuevos miembros
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_nova-2-general',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_nova-2-general",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

Más de 300 modelos de IA para OpenClaw y agentes de IA

Ahorra un 20% en costes y obtén fichas gratis de 1 $.
qwenmax-bg
imagen
Deepgram Nova-2

Detalles del producto

🚀 Descubre Deepgram Nova-2: El futuro de la conversión de voz a texto.

Deepgram Nova-2 se erige como un modelo de reconocimiento automático del habla (ASR) revolucionario, diseñado por Deepgram Ofrece una precisión sin precedentes tanto para audio pregrabado como para audio en tiempo real en inglés. Establece un nuevo referente en la industria, ofreciendo un salto significativo en el rendimiento con respecto a sus predecesores y competidores.

Características destacadas del modelo:

  • Nombre del modelo: Nova-2
  • Revelador: Deepgram
  • Tipo de modelo: Reconocimiento automático del habla (ASR)

Ventaja de rendimiento:

  • 18% más preciso que los modelos Nova anteriores.
  • 🎯 Ofrece una Mejora relativa del 36% en el WER sobre OpenAI Whisper (grande).

💡 Características principales de Nova-2

Nova-2 está diseñado con un conjunto de funciones pensadas para satisfacer las exigentes demandas de las aplicaciones de voz modernas:

  • 🌐 Capacidades multilingües: Amplía tu alcance con soporte para varios idiomas.
  • 📈 Alta precisión y menor tasa de error de palabras (WER): Logre una calidad de transcripción superior.
  • Tiempos de inferencia rápidos: Procesa audio rápidamente para aplicaciones en tiempo real.
  • 💰 Precios competitivos: Benefíciese de soluciones de transcripción rentables.

🎯 Aplicaciones versátiles y modelos especializados

Deepgram Nova-2 está diseñado para un amplio espectro de aplicaciones de voz, desde transcripción en tiempo real hasta análisis de medios. Para satisfacer las diversas necesidades de la industria, Nova-2 ofrece varias versiones altamente optimizadas:

Modelos generales y básicos:

  • nova-2 o nova-2-general: Modelo de propósito general para diversos dominios.
  • nova-2-conversationalai: Ideal para la IA conversacional.
  • nova-2-video: Optimizado para contenido de vídeo.

Optimizaciones específicas para cada sector:

  • Reunión nova-2: Diseñado específicamente para transcribir reuniones.
  • nova-2-llamada telefónica: Específicamente para la transcripción de llamadas telefónicas.
  • nova-2-finanzas: Adaptado a contextos financieros.
  • nova-2-voicemail: Perfecto para mensajes de voz.
  • nova-2-medical: Especializado en transcripción médica, logrando 16% mejor precisión para términos médicos a 120-180 palabras/minuto. Descubra más sobre la IA en la atención médica. aquí.
  • nova-2-drivethru: Desarrollado para sistemas de servicio desde el automóvil.
  • nova-2-automotriz: Diseñado para entornos automotrices.

⚙️ Información técnica sobre Nova-2

Arquitectura:

Nova-2 está construido sobre una base Arquitectura de vanguardia basada en TransformerEste diseño avanzado mejora significativamente el rendimiento, lo que conduce a una Disminución del 18,4% en la tasa de errores de palabras (WER). en comparación con Nova-1. Estas mejoras son cruciales para transcribir entidades (como nombres propios), puntuación y mayúsculas con alta precisión tanto en audio en directo como pregrabado.

Datos de entrenamiento:

El modelo fue entrenado en el conjunto de datos más extenso y diverso de Deepgram hasta la fecha, utilizando casi 6 millones de recursos y 47 mil millones de tokensEste enorme conjunto de datos se enriquece con una colección exhaustiva de transcripciones humanas de alta calidad, lo que garantiza un aprendizaje sólido y preciso.

Métricas de rendimiento y velocidad:

Nova-2 muestra mejoras significativas en WER en comparación con modelos anteriores y competidores. Además, La velocidad es una ventaja crucial.: Nova-2 logró un tiempo de inferencia medio de tan solo 29,8 segundos por hora de audio registradoEsto lo hace De 5 a 40 veces más rápido que otros proveedores que ofrecen funciones de diarización.

🛠️ Cómo usar Deepgram Nova-2

Ejemplos de código y SDK:

Ejemplo de integración: Utilice el fragmento `voice.stt` con `data-model="#g1_nova-2-general"` para necesidades generales de transcripción.

Tutoriales:

Profundiza más con guías como: Experiencia multimodal de voz a texto en NodeJS

Restricciones técnicas:

  • 💾 Tamaño máximo del archivo: 2 GB
  • ⏱️ Límites de tarifa: 100 solicitudes simultáneas

⚖️ Consideraciones éticas para Nova-2

Deepgram está comprometida con el desarrollo responsable de la IA. Nova-2 se adhiere a estrictas directrices éticas:

  • 🔒 Privacidad e IA ética: Estricto cumplimiento de los principios éticos en el desarrollo de la IA, haciendo hincapié en la privacidad de los datos y su uso responsable.
  • 🌍 Mitigación de sesgos: Esfuerzos continuos para garantizar la imparcialidad y la precisión en la diversidad de patrones de habla, acentos y grupos demográficos.

❓ Preguntas frecuentes (FAQ) sobre Deepgram Nova-2

P: ¿Qué es Deepgram Nova-2?

A: Deepgram Nova-2 es un modelo de reconocimiento automático de voz (ASR) de última generación diseñado para la transcripción de voz a texto de alta precisión, tanto de audio en inglés pregrabado como en streaming.

P: ¿Cómo se compara Nova-2 con otros modelos de reconocimiento automático de voz como OpenAI Whisper?

A: Nova-2 presume de una mejora del 18 % en la precisión con respecto a los modelos Deepgram Nova anteriores y ofrece una mejora significativa del 36 % en la tasa de error de palabras (WER) relativa en comparación con OpenAI Whisper (grande).

P: ¿Existen versiones especializadas de Nova-2 para industrias específicas?

R: Sí, Deepgram Nova-2 viene con varias versiones optimizadas para casos de uso específicos, incluyendo `nova-2-meeting`, `nova-2-phonecall`, `nova-2-finance`, `nova-2-medical` y más, cada una adaptada para lograr la máxima precisión en su dominio respectivo.

P: ¿Cuáles son las principales ventajas técnicas de Nova-2?

A: Nova-2 utiliza una arquitectura avanzada basada en Transformer, lo que resulta en una disminución del 18,4 % en la tasa de error de palabras (WER) con respecto a Nova-1. Fue entrenado con un extenso conjunto de datos de 47 mil millones de tokens y ofrece tiempos de inferencia extremadamente rápidos, siendo de 5 a 40 veces más rápido que sus competidores para audio con formato de diario.

P: ¿Cómo aborda Deepgram las preocupaciones éticas relacionadas con Nova-2?

A: Deepgram prioriza el desarrollo ético de la IA, centrándose en reducir los sesgos, garantizar la privacidad y mantener la imparcialidad y la precisión en diversos patrones de habla y acentos mediante esfuerzos continuos y el cumplimiento de directrices estrictas.

Campo de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos