



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: 'openai/gpt-4o-mini-transcribe',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "openai/gpt-4o-mini-transcribe",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Detalle del producto
🎙️ Presentamos la API de minitranscripción GPT-4o
El API de transcripción mini GPT-4o de OpenAI es una innovación modelo de voz a texto Diseñado para una precisión excepcional y una eficiencia inigualable. Como una versión más ligera y rápida del modelo completo GPT-4o Transcribe, está específicamente optimizado para baja latencia y un menor consumo de recursos, manteniendo al mismo tiempo una calidad de transcripción superior. Esta API es una solución ideal para desarrolladores que buscan reconocimiento de voz rápido y confiable en entornos acústicos diversos y desafiantes.
⚙️ Especificaciones técnicas
- Tipo de modelo: Modelo de transcripción de voz a texto
- Base de la arquitectura: Construido sobre la arquitectura GPT-4o-mini, entrenado previamente en conjuntos de datos especializados centrados en audio
- Ventana de contexto del token: Admite entradas de audio largas con una ventana de contexto de hasta 16 000 tokens
- Tokens de salida máxima: Hasta 2000 tokens por salida de transcripción
- Datos de entrenamiento: Conjuntos de datos de audio diversos y de alta calidad que incluyen diversos acentos, condiciones de ruido y velocidades de voz.
- Técnicas de entrenamiento: Ajuste fino supervisado y aprendizaje de refuerzo para minimizar la tasa de errores de palabras y las alucinaciones
📊 Puntos de referencia de rendimiento
- Tasa de error de palabras (WER): Significativamente mejorado en comparación con los modelos Whisper anteriores y líneas de base similares
- Fiabilidad: Funciona de manera robusta en entornos ruidosos, con acentos diversos y velocidades de habla variables.
- Reconocimiento de idioma: Mayor precisión y capacidad de comprensión del lenguaje en varios idiomas.
✨ Características principales
- Eficiencia: Un modelo liviano que ofrece tiempos de inferencia rápidos para una rápida respuesta de transcripción.
- Robustez: Maneja de manera excelente entradas de audio desafiantes, incluido ruido de fondo, diversos acentos y variaciones del habla.
- Escalabilidad: Capaz de transcribir entradas de audio extensas sin perder el contexto, gracias a su generosa ventana de contexto de 16.000 tokens.
- Capacidad de transmisión: Proporciona soporte para transmisión de audio continua y transcripción en tiempo real.
- Integración personalizable: Diseñado para una integración perfecta en diversas aplicaciones, como agentes de voz, centros de llamadas, servicios de transcripción y herramientas de gestión de reuniones.
💸 Precios de la API de transcripción mini GPT-4o
Costo: $0,63 por cada millón de tokens de entrada
🎯 Casos de uso práctico
- Servicio al cliente: Transcripción y análisis de llamadas para mejorar el servicio y la información.
- Productividad: Toma de notas automatizada para reuniones y conferencias.
- Asistentes de voz: Potenciando las capacidades de transcripción del asistente de voz y del agente de voz.
- Transcripción especializada: Servicios de dictado legal y médico.
💻 Ejemplo de código
⚖️ Comparación con otros modelos
vs. GPT-4o Transcribir
El Minitranscripción GPT-4o sobresale en aplicaciones de baja latencia donde la velocidad es primordial. Por el contrario, el modelo completo GPT-4o Transcribe es más adecuado para entornos donde la precisión es crítica como la transcripción legal o médica, donde incluso errores menores pueden tener implicaciones significativas.
frente a OpenAI Whisper-Large
Minitranscripción GPT-4o demuestra un rendimiento superior al de Whisper-Large en términos de Tasa de error de palabras (WER) y latencia de transmisiónEsta ventaja se atribuye en gran medida a sus técnicas avanzadas de aprendizaje por refuerzo y a su entrenamiento de audio especializado. Si bien Whisper es un modelo más general, suele presentar un procesamiento más lento y una precisión reducida al enfrentarse a audio ruidoso o habla acentuada.
contra Eleven Labs Scribe
Ambos modelos son muy eficaces en la transcripción en tiempo real. Según pruebas de terceros, Eleven Labs Scribe podría igualar o superar ligeramente a GPT-4o Mini Transcribe en ciertos parámetros de precisión. Sin embargo, Velocidad del GPT-4o Mini y su perfecta integración dentro El extenso ecosistema de OpenAI siguen teniendo importantes ventajas competitivas.
❓ Preguntas frecuentes (FAQ)
P1: ¿Para qué está diseñada la API GPT-4o Mini Transcribe?
A: Está diseñado para una transcripción de voz a texto altamente precisa y eficiente, optimizado para baja latencia y consumo reducido de recursos, lo que lo hace ideal para aplicaciones en tiempo real y desarrolladores que necesitan un procesamiento de audio rápido y confiable.
P2: ¿Cómo se compara con el modelo de transcripción GPT-4o completo?
A: GPT-4o Mini Transcribe prioriza la velocidad y la eficiencia para usos de baja latencia, mientras que el GPT-4o Transcribe completo se centra en la máxima precisión para aplicaciones críticas como la transcripción legal o médica.
P3: ¿Puede GPT-4o Mini Transcribe manejar audio ruidoso o acentos diferentes?
A: Sí, está construido con capacidades robustas para funcionar de manera confiable en entornos acústicos desafiantes, manejando de manera efectiva el ruido de fondo, los acentos diversos y las distintas velocidades de habla.
P4: ¿Cuáles son los principales casos de uso de esta API?
A: Los casos de uso clave incluyen la transcripción y el análisis de llamadas de servicio al cliente, la toma de notas de reuniones y conferencias, el uso de asistentes de voz y servicios especializados como el dictado legal y médico.
Q5: ¿Se admite la transcripción en streaming?
A: Por supuesto. GPT-4o Mini Transcribe admite la transmisión continua de audio y ofrece funciones de transcripción en tiempo real.
Patio de juegos de IA



Acceso