



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: 'openai/gpt-4o-mini-transcribe',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "openai/gpt-4o-mini-transcribe",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Detalles del producto
🎙️ Presentamos la API Mini Transcribe de GPT-4o.
El API de transcripción mini de GPT-4o de OpenAI es un avance revolucionario modelo de conversión de voz a texto Diseñado para una precisión excepcional y una eficiencia sin igual. Como una versión más ligera y rápida del modelo completo GPT-4o Transcribe, está optimizado específicamente para baja latencia y un consumo reducido de recursos, todo ello manteniendo una calidad de transcripción superior. Esta API es una solución ideal para desarrolladores que buscan Reconocimiento de voz rápido y fiable en entornos acústicos diversos y complejos.
⚙️ Especificaciones técnicas
- Tipo de modelo: Modelo de transcripción de voz a texto
- Bases de la arquitectura: Construido sobre la arquitectura GPT-4o-mini, preentrenado con conjuntos de datos especializados centrados en audio.
- Ventana de contexto del token: Admite entradas de audio largas con una ventana de contexto de hasta 16.000 tokens.
- Tokens de salida máximos: Hasta 2000 tokens por salida de transcripción
- Datos de entrenamiento: Conjuntos de datos de audio diversos y de alta calidad que incluyen varios acentos, condiciones de ruido y velocidades del habla.
- Técnicas de entrenamiento: Ajuste fino supervisado y aprendizaje por refuerzo para minimizar la tasa de errores de palabras y las alucinaciones.
📊 Indicadores de rendimiento
- Tasa de error de palabras (WER): Mejora significativa en comparación con los modelos Whisper anteriores y con modelos de referencia similares.
- Fiabilidad: Se desempeña con solidez en entornos ruidosos, con diversos acentos y velocidades de habla variables.
- Reconocimiento de idiomas: Mayor precisión y capacidad de comprensión del lenguaje en múltiples idiomas.
✨ Características principales
- Eficiencia: Un modelo ligero que ofrece tiempos de inferencia rápidos para una transcripción ágil.
- Robustez: Maneja de forma excelente entradas de audio complejas, incluyendo ruido de fondo, diversos acentos y variaciones en el habla.
- Escalabilidad: Capaz de transcribir entradas de audio extensas sin perder el contexto, gracias a su generosa ventana de contexto de 16.000 tokens.
- Capacidad de transmisión en directo: Ofrece soporte para la transmisión continua de audio y la transcripción en tiempo real.
- Integración personalizable: Diseñado para una integración perfecta en diversas aplicaciones, como agentes de voz, centros de llamadas, servicios de transcripción y herramientas de gestión de reuniones.
💸 Precios de la API de GPT-4º Mini Transcribe
Costo: 0,63 dólares por cada millón de tokens de entrada
🎯 Casos de uso prácticos
- Servicio al cliente: Transcripción y análisis de llamadas para mejorar el servicio y obtener información valiosa.
- Productividad: Sistema automatizado para tomar notas en reuniones y conferencias.
- Asistentes de voz: Potenciando las capacidades de transcripción de asistentes de voz y agentes de voz.
- Transcripción especializada: Servicios de dictado legal y médico.
💻 Ejemplo de código
⚖️ Comparación con otros modelos
vs. GPT-4o Transcribir
El Minitranscripción GPT-4o sobresale en aplicaciones de baja latencia donde la velocidad es primordial. Por el contrario, el modelo completo de transcripción GPT-4o es más adecuado para entornos críticos para la precisión como la transcripción legal o médica, donde incluso los errores menores pueden tener consecuencias importantes.
vs. OpenAI Whisper-Large
Minitranscripción GPT-4o demuestra un rendimiento superior sobre Whisper-Large en términos de Tasa de error de palabras (WER) y latencia de transmisiónEsta ventaja se atribuye en gran medida a sus avanzadas técnicas de aprendizaje por refuerzo y a su entrenamiento de audio especializado. Si bien Whisper es un modelo de propósito más general, suele presentar un procesamiento más lento y una menor precisión cuando se enfrenta a audio ruidoso o habla con acento.
vs. Escriba de Eleven Labs
Ambos modelos son altamente capaces en la transcripción en tiempo real. Según algunas pruebas de terceros, Eleven Labs Scribe puede igualar o superar ligeramente a GPT-4o Mini Transcribe en ciertos parámetros de precisión. Sin embargo, Velocidad del GPT-4o Mini y su perfecta integración dentro El extenso ecosistema de OpenAI siguen siendo ventajas competitivas significativas.
❓ Preguntas frecuentes (FAQ)
P1: ¿Para qué está diseñada la API Mini Transcribe de GPT-4o?
A: Está diseñado para una transcripción de voz a texto altamente precisa y eficiente, optimizado para una baja latencia y un consumo reducido de recursos, lo que lo hace ideal para aplicaciones en tiempo real y desarrolladores que necesitan un procesamiento de audio rápido y fiable.
P2: ¿Cómo se compara con el modelo completo de transcripción de GPT-4o?
A: GPT-4o Mini Transcribe prioriza la velocidad y la eficiencia para usos de baja latencia, mientras que la versión completa de GPT-4o Transcribe se centra en la máxima precisión para aplicaciones críticas como la transcripción legal o médica.
P3: ¿Puede GPT-4o Mini Transcribe procesar audio con ruido o diferentes acentos?
A: Sí, está diseñado con sólidas capacidades para funcionar de manera fiable en entornos acústicos difíciles, manejando eficazmente el ruido de fondo, diversos acentos y diferentes velocidades de habla.
P4: ¿Cuáles son los principales casos de uso de esta API?
A: Entre los casos de uso más importantes se incluyen la transcripción y el análisis de llamadas de atención al cliente, la toma de notas en reuniones y conferencias, el uso de asistentes de voz y servicios especializados como el dictado legal y médico.
P5: ¿Se admite la transcripción en tiempo real?
A: Por supuesto. GPT-4o Mini Transcribe admite la transmisión continua de audio y ofrece capacidades de transcripción en tiempo real.
Campo de juegos de IA



Acceso