



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: 'aai/universal',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "aai/universal",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Detalles del producto
La serie Universal de AssemblyAI representa la cúspide de Conversión de voz a texto (STT) tecnología, diseñada para transformar el lenguaje hablado en texto altamente preciso e inteligible. Estos modelos avanzados se entrenan meticulosamente en más de 12,5 millones de horas de datos de audio multilingües diversosEsto les permite sobresalir en conversaciones complejas y reales. Manejan con destreza múltiples interlocutores, diversos acentos y ruido de fondo desafiante con una fidelidad excepcional.
⚙ Especificaciones técnicas
- ✓ Arquitectura: Universal-1 aprovecha un Codificador conformador emparejado con un transductor de red neuronal recurrente (RNN-T) Modelo optimizado tanto para la velocidad como para la precisión.
- ✓ Detalles del codificador: Cuenta con capas convolucionales para submuestreo 4x, codificación posicional y 24 capas Conformer, con un total aproximado de 600 millones de parámetrosCada bloque Conformer utiliza atención por fragmentos en segmentos de audio de 8 segundos para un procesamiento más rápido y una mayor robustez ante diferentes duraciones de audio.
- ✓ Decodificador: Consta de un predictor LSTM de dos capas con un conector, que emplea un tokenizador de WordPiece Formados en extensos corpus multilingües.
- ✓ Procesamiento paralelo: Diseñado para el cálculo de codificadores altamente paralelizados, lo que permite inferencia a gran escala y de baja latenciaIdeal para aplicaciones en tiempo real.
- ✓ Marcado de tiempo: Garantiza una alineación horaria precisa para una mayor exactitud. estimación de marca de tiempo a nivel de palabra.
📈 Indicadores de rendimiento
- ✓ WER de última generación: Logra un liderazgo en la industria. Tasa de error de palabras (WER) en inglés, superando a numerosos proveedores comerciales de reconocimiento automático de voz y modelos de código abierto, incluidos Whisper Large-v3 de OpenAI y Canary-1B de NVIDIA.
- ✓ Mayor robustez: Demuestra una robustez superior frente al ruido y un rendimiento sólido en telefonía y otros entornos acústicos difíciles.
- ✓ Competencia multilingüe: Muestra un WER competitivo en Español, francés y alemán conjuntos de datos que presentan sólidas capacidades multilingües.
- ✓ Mejora cualitativa: Las evaluaciones humanas revelan una 60% de preferencia para las transcripciones de Universal-1 en comparación con la generación anterior de Conformer-2, lo que subraya mejoras cualitativas significativas en la transcripción.
💰 Precios de API
$0.004725 por minuto
📣 Características y capacidades principales
- ✓ Transcripción de alta precisión: Ofrece transcripciones precisas, completas con puntuación, mayúsculas y formato de texto avanzado.
- ✓ Diarización de oradores: Identifica y diferencia de forma inteligente oradores individuales dentro del audio.
- ✓ Reconocimiento avanzado de entidades: Reconoce y transcribe con precisión nombres propios y contenido alfanumérico (por ejemplo, números de teléfono, direcciones de correo electrónico).
- ✓ Procesamiento en tiempo real: Ofertas transcripción en tiempo real de baja latencia con una escalabilidad y eficiencia excepcionales.
- ✓ Personalización y ajuste fino: Ofrece opciones flexibles para Ajuste fino y personalización para adaptarse a diversos casos de uso empresarial.
- ✓ IA ética: Integra estrategias rigurosas para mitigación de sesgos, seguridad del contenido y reducción de alucinaciones.
💻 Ejemplo de código
🔗 Comparación con otros modelos
► Universal vs GPT-5
Mientras GPT-5 cuenta con una enorme ventana de contexto de 400.000 tokens. y razonamiento jerárquico avanzado, lo que lo hace ideal para la comprensión y generación de lenguaje a gran escala, es menos adecuado para el procesamiento STT en tiempo real en comparación con Universal. Universal está diseñado específicamente para la transcripción de voz de alta precisión.
► Universal vs GPT-4.1
GPT-4.1 se especializa en tareas de codificación. y manipulación de código estructurado con una ventana de contexto más pequeña. Si bien está optimizado para escenarios centrados en desarrolladores, carece de las amplias capacidades de reconocimiento de voz e integración multimodal que son fundamentales para AssemblyAI Universal.
► Universal vs OpenAI o3
OpenAI o3 sirve principalmente para tareas de agentes heredados Con una comprensión básica de imágenes, presenta una latencia mayor y un razonamiento multimodal menos preciso en comparación con AssemblyAI Universal, lo que lo hace menos eficaz para la transcripción en tiempo real y las aplicaciones multimodales modernas.
📜 Preguntas frecuentes
1. ¿Qué hace que AssemblyAI Universal destaque en la tecnología de conversión de voz a texto?
AssemblyAI Universal destaca por su entrenamiento en más de 12,5 millones de horas de datos de audio multilingües, lo que le permite manejar escenarios complejos del mundo real con gran precisión, incluyendo múltiples interlocutores, diversos acentos y un ruido de fondo significativo.
2. ¿Cuáles son los componentes técnicos clave de Universal-1?
Universal-1 emplea un Codificador conformador con 24 capas y aproximadamente 600 millones de parámetros, combinado con un Modelo RNN-TIncorpora atención por bloques para un procesamiento más rápido y un decodificador LSTM de dos capas con un tokenizador WordPiece.
3. ¿Cómo se desempeña Universal en comparación con otros modelos ASR líderes?
Universal logra Tasa de error de palabras (WER) de última generación en inglésSuperando a modelos como Whisper Large-v3 de OpenAI y Canary-1B de NVIDIA. Además, muestra una tasa de error de palabras competitiva en español, francés y alemán, lo que demuestra una gran robustez entre idiomas.
4. ¿Qué capacidades únicas ofrece AssemblyAI Universal?
Más allá de la transcripción de alta precisión, ofrece diarización de oradores, reconocimiento preciso de nombres propios y contenido alfanumérico, transcripción en tiempo real de baja latenciay flexible opciones de personalización Para uso empresarial.
5. ¿Es Universal adecuado para aplicaciones en tiempo real?
Sí, la arquitectura de Universal está diseñada específicamente para computación altamente paralelizada y permite inferencia a gran escala y de baja latencia, lo que la hace ideal para la transcripción en tiempo real y las aplicaciones que requieren procesamiento inmediato.
Campo de juegos de IA



Acceso