



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: 'aai/slam-1',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "aai/slam-1",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Detalle del producto
Golpe-1 se erige como el proyecto pionero de AssemblyAI Modelo de lenguaje del habla (SLM), diseñado exclusivamente para unificar arquitectura de modelos de lenguaje grandes con avanzado codificadores de reconocimiento automático de voz (ASR)Esta poderosa combinación ofrece una calidad superior. precisión de la transcripción de voz a textoDiseñado específicamente para tareas de habla, Slam-1 ofrece una comprensión profunda del contexto y la semántica, lo que permite Transcripción rápida y altamente personalizableSe adapta de forma inteligente a la terminología especializada de la industria y al contenido hablado complejo, lo que lo convierte en una solución ideal para casos de uso críticos en Dominios sanitarios, legales, de ventas y técnicos que requieren transcripciones precisas y conscientes del contexto.
Especificaciones técnicas
Puntos de referencia de rendimiento
✅ Reduce las tasas de entidades omitidas hasta en un 66%, especialmente para nombres, términos médicos y técnicos.
✅ Reduce los errores de formato en aproximadamente 20%.
✅ Preferido por más de 72% de usuarios finales en pruebas a ciegas frente a modelos de la competencia.
✅ Logra una calidad de transcripción más confiable en contextos ruidosos y especializados.
✅ Proporciona robustez contra las alucinaciones a través de un arquitectura multimodal que procesa simultáneamente audio y lenguaje.
Desglose de la arquitectura
La arquitectura de Slam-1 fusiona distintivamente una codificador de voz con un capa adaptadora Ajustado con precisión para vincular las características acústicas con un sonido fijo. modelo de lenguaje grandeEsto permite una comprensión semántica potente. Este diseño multimodal supera los modelos tradicionales de audio a texto al interpretar el contenido hablado de forma integral, lo que respalda transcripción precisa y razonamiento contextualEl enfoque aprovecha ingeniería rápida para personalizar dinámicamente la precisión de la transcripción para vocabularios y patrones de habla específicos de la industria.
Precios de la API
Empieza por solo $0.002625 por minuto
Características y capacidades principales
✨ Integración del habla y el lenguaje: Combina a la perfección el codificador de voz y LLM para Flujos de trabajo de transcripción personalizables y con capacidad de solicitud.
⚙️ Ajuste fino y personalización: Habilita adaptación específica del dominio a través de indicaciones sencillas, eliminando la necesidad de un reentrenamiento complejo.
🎯 Alta precisión: Ofrece un reconocimiento superior de términos raros y específicos del dominio, Mejorar significativamente el análisis posterior y reducir los esfuerzos de revisión manual..
🗣️ Diarización multicanal y de altavoces: Admite transmisiones de audio complejas con Separación precisa de los altavoces y marcas de tiempo proporcionadas de fábrica.
🏢 Listo para la empresa: Diseñado específicamente para reducir el esfuerzo de posprocesamiento y Mejorar la calidad de las transcripciones en industrias de alto riesgo como la atención sanitaria y la jurídica.
Ejemplo de código
Comparación con otros modelos
VS AssemblyAI Universal: Slam-1 se distingue por Transcripción rápida y altamente personalizable que presenta un reconocimiento de entidades superior para dominios especializadosPor el contrario, AssemblyAI Universal está optimizado para ofrecer un soporte lingüístico más amplio y una menor latencia, satisfaciendo así las necesidades generales de transcripción.
VS GPT-4.1 (uso de transcripción de audio): Slam-1 está diseñado específicamente y altamente optimizado para Conversión de voz a texto, que incorpora funciones robustas de multicanal y de diarización de hablantesPor otro lado, GPT-4.1 se centra principalmente en tareas generales de procesamiento del lenguaje natural (PLN) y carece de capacidades nativas de procesamiento de audio esenciales para una transcripción integral.
Preguntas frecuentes (FAQ)
P: ¿Qué hace que Slam-1 sea único entre las soluciones de voz a texto?
A: Slam-1 es único gracias a su innovadora arquitectura, que unifica un codificador de voz con un modelo de lenguaje extenso (LLM). Esta integración le permite comprender el contexto y la semántica a fondo, lo que proporciona una precisión significativamente mayor y permite una transcripción rápida y personalizable para contenido complejo y especializado, superando así el rendimiento de los sistemas ASR tradicionales.
P: ¿Cómo garantiza Slam-1 una alta precisión para la terminología especializada?
A: Slam-1 aprovecha la ingeniería rápida y sus capacidades LLM para adaptarse dinámicamente a vocabularios específicos de la industria. Esto permite a los usuarios personalizar el modelo para reconocer nombres poco comunes, términos médicos, jerga legal y frases técnicas con gran precisión sin necesidad de un reentrenamiento exhaustivo, lo que reduce significativamente las tasas de entidades omitidas.
P: ¿Qué industrias se benefician más de las capacidades de Slam-1?
A: Las industrias que requieren una transcripción precisa y adaptada al contexto se benefician enormemente. Esto incluye el sector sanitario (para dictado médico e historiales clínicos), el jurídico (para procedimientos judiciales y declaraciones), el de ventas (para análisis de llamadas) y el técnico (para debates técnicos detallados y documentación). La alta precisión y personalización de Slam-1 son cruciales en estos entornos de alto riesgo.
P: ¿Slam-1 admite la transcripción de audio de múltiples hablantes?
A: Sí, Slam-1 incorpora funciones multicanal y de diarización de oradores. Esto significa que puede separar con precisión a diferentes oradores en transmisiones de audio complejas y proporcionar marcas de tiempo para la contribución de cada orador, lo que lo hace ideal para reuniones, entrevistas y otras grabaciones con varios participantes.
P: ¿Cómo aborda Slam-1 la cuestión de las “alucinaciones” de la transcripción?
A: La arquitectura multimodal de Slam-1 está diseñada para ofrecer robustez contra las alucinaciones. Al procesar simultáneamente datos de audio y lenguaje, puede contrastar y validar la información de las características acústicas con la comprensión semántica, lo que reduce significativamente la probabilidad de generar contenido inexacto o inventado en sus transcripciones.
Patio de juegos de IA



Acceso