qwen-bg
max-ico04
En
Afuera
max-ico02
Charlar
max-ico03
desactivar
Universal
Universal está diseñado para una integración perfecta en diversos flujos de trabajo de conversión de voz a texto, lo que permite una transcripción precisa y eficiente en múltiples idiomas y condiciones de audio.
Tokens gratis de $1 para nuevos miembros
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: 'aai/universal',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "aai/universal",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

Una API con más de 300 modelos de IA

Ahorre un 20% en costos y $1 en tokens gratis
qwenmax-bg
imagen
Universal

Detalle del producto

La serie Universal de AssemblyAI representa la cúspide de Conversión de voz a texto (STT) Tecnología diseñada para transformar el lenguaje hablado en texto altamente preciso e inteligible. Estos modelos avanzados se entrenan meticulosamente en más de... 12,5 millones de horas de datos de audio multilingües diversos, lo que les permite destacar en entornos conversacionales complejos y reales. Gestionan con destreza múltiples hablantes, diversos acentos y ruidos de fondo complejos con una fidelidad excepcional.

Especificaciones técnicas

  • ✓ Arquitectura: Universal-1 aprovecha una Codificador conformador emparejado con un transductor de red neuronal recurrente (RNN-T) modelo, optimizado tanto para velocidad como para precisión.
  • ✓ Detalles del codificador: Incluye capas convolucionales para submuestreo 4x, codificación posicional y 24 capas de conformador, con un total aproximado de 600 millones de parámetrosCada bloque Conformer utiliza atención por fragmento en segmentos de audio de 8 segundos para un procesamiento más rápido y robustez ante diferentes duraciones de audio.
  • ✓ Decodificador: Incluye un predictor LSTM de dos capas con un ensamblador, que emplea un Tokenizador de WordPiece formado en amplios corpus multilingües.
  • ✓ Procesamiento paralelo: Diseñado para el cálculo del codificador altamente paralelizado, lo que permite inferencia a gran escala y baja latencia, ideal para aplicaciones en tiempo real.
  • ✓ Sellado de tiempo: Garantiza una alineación horaria precisa para una precisión estimación de marca de tiempo a nivel de palabra.

📈 Puntos de referencia de rendimiento

  • ✓ WER de última generación: Logra un liderazgo en la industria Tasa de error de palabras (WER) en inglés, superando a numerosos proveedores de ASR comerciales y modelos de código abierto, incluidos Whisper Large-v3 de OpenAI y Canary-1B de NVIDIA.
  • ✓ Robustez mejorada: Demuestra una robustez superior al ruido y un sólido rendimiento en telefonía y otros entornos acústicos desafiantes.
  • ✓ Competencia multilingüe: Muestra un WER competitivo en todo el mundo Español, francés y alemán conjuntos de datos que muestran sólidas capacidades en varios idiomas.
  • ✓ Mejora cualitativa: Las evaluaciones humanas revelan una 60% de preferencia para las transcripciones de Universal-1 sobre el Conformer-2 de la generación anterior, lo que subraya importantes mejoras en la transcripción cualitativa.

💰 Precios de la API

$0.004725 por minuto

📣 Características y capacidades principales

  • ✓ Transcripción de alta precisión: Ofrece transcripciones precisas, completas con Puntuación, mayúsculas y formato de texto avanzado.
  • ✓ Diarización del orador: Identifica y diferencia inteligentemente oradores individuales dentro del audio.
  • ✓ Reconocimiento avanzado de entidades: Reconoce y transcribe con precisión nombres propios y contenido alfanumérico (por ejemplo, números de teléfono, direcciones de correo electrónico).
  • ✓ Procesamiento en tiempo real: Ofertas transcripción en tiempo real de baja latencia con escalabilidad y eficiencia excepcionales.
  • ✓ Personalización y ajuste: Proporciona opciones flexibles para ajuste fino y personalización para adaptarse a diversos casos de uso empresarial.
  • ✓ IA ética: Integra estrategias rigurosas para mitigación de sesgos, seguridad del contenido y reducción de alucinaciones.

💻 Ejemplo de código

🔗 Comparación con otros modelos

► Universal vs. GPT-5

Mientras GPT-5 cuenta con una enorme ventana de contexto de 400.000 tokens y razonamiento jerárquico avanzado, lo que lo hace ideal para la comprensión y generación de lenguajes a gran escala, es menos adecuado para el procesamiento STT en tiempo real en comparación con Universal. Universal está diseñado específicamente para la transcripción de voz de alta precisión.

► Universal frente a GPT-4.1

GPT-4.1 se especializa en tareas de codificación y manipulación de código estructurado con una ventana de contexto más pequeña. Si bien está optimizado para escenarios orientados al desarrollo, carece de las amplias capacidades de reconocimiento de voz e integración multimodal que son fundamentales para AssemblyAI Universal.

► Universal vs. OpenAI o3

OpenAI o3 atiende principalmente tareas de agentes heredados Con comprensión básica de imágenes. Presenta mayor latencia y un razonamiento multimodal menos preciso en comparación con AssemblyAI Universal, lo que lo hace menos eficaz para la transcripción en tiempo real y las aplicaciones multimodales modernas.

📜 Preguntas frecuentes

1. ¿Qué hace que AssemblyAI Universal se destaque en la tecnología de conversión de voz a texto?

AssemblyAI Universal se destaca por su capacitación en más de 12,5 millones de horas de datos de audio multilingües, lo que le permite manejar escenarios complejos del mundo real con gran precisión, incluidos múltiples hablantes, acentos diversos y ruido de fondo significativo.

2. ¿Cuáles son los componentes técnicos clave de Universal-1?

Universal-1 emplea un Codificador conformador con 24 capas y aproximadamente 600 millones de parámetros, combinado con un Modelo RNN-TCuenta con atención a fragmentos para un procesamiento más rápido y un decodificador LSTM de dos capas con un tokenizador WordPiece.

3. ¿Cómo se desempeña Universal en comparación con otros modelos ASR líderes?

Universal logra Tasa de error de palabras (WER) de última generación en inglés, superando modelos como Whisper Large-v3 de OpenAI y Canary-1B de NVIDIA. Además, muestra un WER competitivo en español, francés y alemán, demostrando una gran robustez multilingüe.

4. ¿Qué capacidades únicas ofrece AssemblyAI Universal?

Más allá de la transcripción de alta precisión, ofrece diarización del hablante, reconocimiento preciso de nombres propios y contenido alfanumérico, transcripción en tiempo real de baja latencia, y flexible opciones de personalización Para uso empresarial.

5. ¿Es Universal adecuado para aplicaciones en tiempo real?

Sí, la arquitectura de Universal está diseñada específicamente para computación altamente paralelizada y permite inferencia a gran escala y baja latencia, lo que lo hace ideal para la transcripción en tiempo real y aplicaciones que requieren procesamiento inmediato.

Patio de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Una API
Más de 300 modelos de IA

Ahorre un 20% en costos