



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'openai/gpt-audio-mini',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="openai/gpt-audio-mini",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

Detalhes do produto
🚀 Apresentando a GPT Audio Mini API: Síntese de fala em tempo real para aplicações modernas
O GPT Audio Mini é uma variante de ponta e leve da família GPT Audio, projetada especificamente para geração de fala altamente eficiente e com baixa latência. Este modelo poderoso é perfeito para aplicações interativas em tempo real, incluindo assistentes de voz avançados, chatbots inteligentes e softwares de ditado, onde a capacidade de resposta instantânea e o consumo mínimo de recursos são fundamentais. Ele equilibra com maestria a saída de áudio de alta qualidade com velocidade excepcional, tornando-se uma solução ideal para implantação em dispositivos de borda ou em serviços com recursos computacionais limitados.
⚙️ Especificações Técnicas
- Tipo de modelo: Modelo TTS (Text-to-Speech) neural autorregressivo leve
- Contagem de parâmetros: Aproximadamente 100 milhões de parâmetros
- Modalidades de entrada: Sequências de entrada de texto
- Modalidades de saída: Geração de forma de onda de áudio
- Taxa de amostragem: Qualidade de saída padrão de 24 kHz
- Latência: Tempo médio de resposta sob 100 ms em dispositivos de borda típicos
- Idiomas suportados: Inglês (principal), com apoio multilíngue planejado.
- Arquitetura do modelo: Codificador-decodificador baseado em transformador modificado
- Compatibilidade de hardware: CPU e GPU otimizadas para inferência em dispositivos de consumo convencionais
📊 Indicadores de desempenho
- Naturalidade da fala: MOS (Pontuação Média de Opinião) em torno de 4,1/5 em testes de usuário
- Comparação de latência: 30-40% mais rápido do que o GPT-Audio em escala completa em hardware padrão
- Utilização de recursos: Opera em Consumo de RAM 50-60% menor do que o modelo base GPT-Audio
- Robustez: Mantém a inteligibilidade com até 15 dB de ruído de fundo.
✨ Principais características do GPT Audio Mini
- Síntese de fala de baixa latência: A arquitetura otimizada garante atraso mínimo para interação em tempo real.
- Design com uso eficiente de recursos: Projetado para baixo consumo de energia e tamanho reduzido da memória, perfeito para ambientes com recursos limitados.
- Geração de voz versátil: Capaz de produzir fala com som natural em diversos estilos e contextos.
- Tamanho do modelo compacto: Facilita a integração em ambientes leves e plataformas móveis.
- Robusto em cenários ruidosos: Mantém clareza e inteligibilidade excepcionais mesmo em condições acústicas desafiadoras.
- Saídas de voz personalizáveis: Permite ajustes precisos para se adequar a vozes de marca específicas ou requisitos específicos da aplicação.
💰 Preços da Mini API de Áudio GPT
- Entrada: US$ 10,50 / 1 milhão de tokens de áudio; US$ 0,63 / 1 milhão de tokens (entrada de texto)
- Saída: US$ 21,00 / 1 milhão de unidades produzidas; US$ 2,52 / 1 milhão de tokens (saída de áudio)
💡 Casos de uso comuns
- Assistentes de voz: Permitir respostas de voz ágeis e naturais com atrasos mínimos.
- Bots de suporte ao cliente: Oferecendo síntese de voz clara e envolvente para call centers e plataformas de bate-papo online.
- Aplicativos de ditado: Fornecendo feedback de transcrição para fala em tempo real para uma experiência de usuário aprimorada.
- Ferramentas educacionais interativas: Geração de fala dinâmica para programas de tutoria ou aprendizagem de idiomas.
- Ferramentas de acessibilidade: Fornecendo energia para tecnologias assistivas para usuários com deficiência visual ou motora.
- Dispositivos IoT: Integrar funcionalidades de comando de voz em dispositivos inteligentes com recursos de hardware limitados.
💻 Exemplo de código
🆚 Comparação com outros modelos líderes
vs GPT-4o Mini TTS: Embora o GPT-4o Mini TTS ofereça maior controle sobre a entonação e o estilo com o desacoplamento da impressão vocal, resultando em uma fala ligeiramente mais natural e expressiva, GPT Audio Mini É especificamente otimizado para um tempo de resposta ligeiramente mais rápido e uma menor ocupação de memória, tornando-o ideal para computação de borda.
vs OpenAI TTS-1: GPT Audio Mini O GPT Audio Mini supera significativamente o TTS-1 em velocidade de geração e mantém uma naturalidade de fala geral superior. Enquanto o TTS-1 prioriza a síntese rápida, o GPT Audio Mini combina velocidade com maior clareza de áudio, tornando-o mais adequado para aplicações exigentes de assistentes de voz interativos.
vs OpenAI Whisper: O OpenAI Whisper se destaca no suporte a vários idiomas e na precisão da transcrição, em vez da síntese de baixa latência. GPT Audio Mini É ideal para cenários interativos que exigem geração rápida de voz, com foco principal no inglês e em recursos multilíngues futuros.
vs ElevenLabs Turbo: O ElevenLabs Turbo prioriza a velocidade, mas depende exclusivamente de inferência na nuvem e não oferece suporte offline. GPT Audio Mini Oferece qualidade comparável, ao mesmo tempo que proporciona total privacidade no dispositivo e portabilidade multiplataforma superior.
❓ Perguntas frequentes (FAQ)
P: Qual é a principal finalidade do GPT Audio Mini?
A: O GPT Audio Mini foi projetado para geração de fala eficiente e de baixa latência, visando aplicações interativas em tempo real, como assistentes de voz e chatbots, onde a capacidade de resposta e a economia de recursos são cruciais.
P: Como o GPT Audio Mini consegue atingir baixa latência?
A: Utiliza uma arquitetura otimizada que minimiza os atrasos de processamento, resultando em um tempo de resposta médio inferior a 100 milissegundos em dispositivos de borda típicos.
P: O GPT Audio Mini é adequado para dispositivos com recursos limitados?
A: Sim, ele foi projetado para ser eficiente em termos de recursos, operando com um consumo de RAM 50 a 60% menor do que o modelo básico do GPT-Audio, tornando-o ideal para implantações de borda e dispositivos IoT.
P: O GPT Audio Mini pode ser personalizado para estilos de voz específicos?
A: Com certeza. Oferece saídas de voz personalizáveis, permitindo ajustes precisos para corresponder à identidade da marca ou às necessidades específicas de cada aplicação.
P: Quais idiomas o GPT Audio Mini suporta?
A: Atualmente, o suporte é principalmente em inglês, com planos para expandir o suporte a vários idiomas em atualizações futuras.
Playground de IA



Conecte-se