



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: 'openai/gpt-4o-mini-transcribe',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "openai/gpt-4o-mini-transcribe",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Detalhes do produto
🎙️ Apresentando a API Mini Transcribe do GPT-4o
O API de transcrição mini GPT-4o da OpenAI é inovadora. modelo de fala para texto Projetado para precisão excepcional e eficiência incomparável. Como uma versão mais leve e rápida do modelo completo GPT-4o Transcribe, ele é especificamente otimizado para baixa latência e consumo reduzido de recursos, mantendo ao mesmo tempo uma qualidade de transcrição superior. Esta API é uma solução ideal para desenvolvedores que buscam reconhecimento de fala rápido e confiável em diversos ambientes acústicos desafiadores.
⚙️ Especificações técnicas
- Tipo de modelo: Modelo de transcrição de fala para texto
- Base da arquitetura: Construído com base na arquitetura GPT-4o-mini, pré-treinado em conjuntos de dados especializados centrados em áudio.
- Janela de contexto do token: Suporta entradas de áudio longas com até 16.000 tokens na janela de contexto.
- Tokens de saída máximos: Até 2.000 tokens por transcrição.
- Dados de treinamento: Conjuntos de dados de áudio diversificados e de alta qualidade, incluindo vários sotaques, condições de ruído e velocidades de fala.
- Técnicas de treinamento: Ajuste fino supervisionado e aprendizado por reforço para minimizar a taxa de erros de palavras e alucinações.
📊 Indicadores de desempenho
- Taxa de Erro de Palavras (WER): Significativamente melhorado em comparação com os modelos Whisper anteriores e linhas de base semelhantes.
- Confiabilidade: Apresenta bom desempenho em ambientes ruidosos, com diversos sotaques e velocidades de fala variáveis.
- Reconhecimento de idioma: Precisão e capacidade de compreensão de idiomas aprimoradas em diversas línguas.
✨ Principais características
- Eficiência: Um modelo leve que oferece tempos de inferência rápidos para uma transcrição ágil.
- Robustez: Lida de forma excelente com entradas de áudio complexas, incluindo ruído de fundo, diversos sotaques e variações de fala.
- Escalabilidade: Capaz de transcrever entradas de áudio longas sem perder o contexto, graças à sua generosa janela de contexto de 16.000 tokens.
- Capacidade de streaming: Oferece suporte para streaming contínuo de áudio e transcrição em tempo real.
- Integração personalizável: Projetado para integração perfeita em diversas aplicações, como agentes de voz, centrais de atendimento, serviços de transcrição e ferramentas de gestão de reuniões.
💸 Preços da API GPT-4o Mini Transcribe
Custo: US$ 0,63 por 1 milhão de tokens de entrada
🎯 Casos de uso práticos
- Atendimento ao Cliente: Transcrição e análise de chamadas para melhor atendimento e insights.
- Produtividade: Sistema automatizado de tomada de notas para reuniões e conferências.
- Assistentes de voz: Aprimorando os recursos de transcrição de assistentes e agentes de voz.
- Transcrição especializada: Serviços de transcrição para fins jurídicos e médicos.
💻 Exemplo de código
⚖️ Comparação com outros modelos
vs. GPT-4o Transcrever
O GPT-4o Mini Transcrição se destaca em aplicações de baixa latência onde a velocidade é fundamental. Em contraste, o modelo completo GPT-4o Transcribe é mais adequado para ambientes críticos de precisão Assim como na transcrição jurídica ou médica, onde até mesmo pequenos erros podem ter implicações significativas.
vs. OpenAI Whisper-Large
GPT-4o Mini Transcrição demonstra desempenho superior ao Whisper-Large em termos de Taxa de Erro de Palavras (WER) e latência de streamingEssa vantagem se deve, em grande parte, às suas técnicas avançadas de aprendizado por reforço e ao treinamento especializado em áudio. Embora o Whisper seja um modelo de propósito mais geral, ele normalmente apresenta processamento mais lento e precisão reduzida quando confrontado com áudio ruidoso ou fala com sotaque.
vs. Escriba da Eleven Labs
Ambos os modelos são altamente capazes em transcrição contínua. De acordo com alguns testes de terceiros, o Eleven Labs Scribe pode igualar ou superar ligeiramente o GPT-4o Mini Transcribe em certos parâmetros de precisão. No entanto, Velocidade do GPT-4o Mini e sua integração perfeita dentro O extenso ecossistema da OpenAI continuam a ser vantagens competitivas significativas.
❓ Perguntas frequentes (FAQ)
P1: Para que foi projetada a API Mini Transcribe do GPT-4o?
UM: Ele foi projetado para transcrição de fala em texto altamente precisa e eficiente, otimizado para baixa latência e consumo reduzido de recursos, tornando-o ideal para aplicações em tempo real e desenvolvedores que precisam de processamento de áudio rápido e confiável.
Q2: Como se compara ao modelo completo de transcrição do GPT-4o?
UM: O GPT-4o Mini Transcribe prioriza velocidade e eficiência para usos de baixa latência, enquanto o GPT-4o Transcribe completo foca na máxima precisão para aplicações críticas como transcrição jurídica ou médica.
P3: O GPT-4o Mini Transcribe consegue lidar com áudio ruidoso ou com diferentes sotaques?
UM: Sim, ele foi projetado com recursos robustos para funcionar de forma confiável em ambientes acústicos desafiadores, lidando eficazmente com ruídos de fundo, diversos sotaques e velocidades de fala variáveis.
Q4: Quais são os principais casos de uso para esta API?
UM: Os principais casos de uso incluem transcrição e análise de chamadas de atendimento ao cliente, anotações em reuniões e conferências, integração com assistentes de voz e serviços especializados, como ditado jurídico e médico.
Q5: O streaming de transcrição é suportado?
UM: Com certeza. O GPT-4o Mini Transcribe suporta streaming de áudio contínuo e oferece recursos de transcrição em tempo real.
Playground de IA



Conecte-se