



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'openai/gpt-audio',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="openai/gpt-audio",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

Detalhes do produto
O GPT-Audio, um sistema de IA de áudio de última geração da OpenAI, representa um salto significativo na tecnologia de áudio. Ele é capaz de interpretar e gerar fala e áudio de alta fidelidade com notável precisão em vários modos, incluindo fala para fala, conversão de fala em texto, texto para falae avançado raciocínio de áudio multimodalEste sistema foi projetado para otimizar tanto os fluxos de trabalho controlados por voz quanto as soluções sofisticadas de IA conversacional.
⚙️ Especificações Técnicas
- Tipo de modelo: Modelo de Fundação (arquitetura baseada em transformadores)
- Modalidades suportadas: Áudio (entrada/saída), Texto (entrada/saída), Raciocínio multimodal de fala, texto e áudio
- Formatos de entrada: WAV, MP3, FLAC, PCM
- Formatos de saída: WAV, MP3, FLAC (16kHz ou 44,1kHz(mono/estéreo)
- Idiomas: Cobertura multilíngue (mais de) 50 idiomas e sotaques)
- Duração máxima do áudio: Até 30 minutos por segmento
🚀 Indicadores de desempenho
- Taxa de Erro de Palavras (WER): em conjuntos de dados de fala padrão (LibriSpeech, CommonVoice)
- MOS (Pontuação Média de Opinião) para Síntese de Fala: 4,8/5 (quase paridade humana)
- Precisão da verificação do locutor: 98,9%
- Latência de reação: média de 600 ms para TTS em tempo real
- Robustez ao ruído ambiente: Funciona eficazmente até 85dB ruído de fundo
✨ Principais características
- Conversa full-duplex: Gerencia perfeitamente o reconhecimento e a síntese simultâneos de fala para interações dinâmicas.
- Controle da emoção e da entonação: Gera uma produção de fala notavelmente natural e expressiva, com nuances emocionais refinadas.
- Identificação do orador: Diferencia de forma confiável vários falantes em ambientes de áudio com múltiplos participantes.
- Robustez ao ruído: Mantém alta precisão mesmo em ambientes ruidosos e dinâmicos, garantindo uma comunicação clara.
- Perfis de voz personalizados: Oferece a possibilidade de treinar ou selecionar vozes virtuais, ideal para garantir consistência da marca ou acessibilidade.
- Raciocínio multimodal: Integra pistas de áudio, dados falados e instruções textuais para uma compreensão abrangente e híbrida do contexto.
💰 Preços da API de áudio GPT
- Entrada: US$ 33,60 / 1 milhão de tokens de áudio; US$ 2,63 / 1 milhão de tokens
- Saída: US$ 67,20 / 1 milhão de tokens de saída; US$ 10,50 / 1 milhão de tokens
💡 Casos de uso
- Agentes de IA conversacionais: Impulsionando o atendimento avançado ao cliente, chatbots de voz inteligentes e assistentes digitais responsivos.
- Ferramentas de acessibilidade: Possibilitando a legendagem em tempo real de discurso para texto em eventos ao vivo e a tradução de voz eficiente para comunicação global.
- Criação de conteúdo: Facilitando a narração automatizada de artigos, a produção profissional de podcasts e audiolivros interativos.
- Raciocínio baseado na voz: Aprimoramento das capacidades de busca por áudio, interfaces intuitivas de comando de voz e análises multimodais sofisticadas para insights mais profundos.
Exemplo de código
// Exemplo: Integração da API GPT-Audio para conversão de texto em fala
Para obter detalhes da implementação e exemplos de código completos, consulte a documentação oficial da API da OpenAI.
🆚 Comparação com outros modelos
vs OpenAI Whisper: O GPT-Audio oferece uma gama mais ampla de funcionalidades, incluindo, principalmente, a síntese de fala expressiva, indo além das capacidades do Whisper, que são focadas em transcrição.
vs OpenAI GPT-4o (Omni): Embora o GPT-4o seja um modelo multimodal de ponta que suporta entradas abrangentes de voz, texto, visão e áudio, O GPT-Audio é especificamente otimizado. Ideal para tarefas de áudio de alta fidelidade. Oferece precisão superior no reconhecimento de fala e uma saída de texto para fala mais natural e expressiva, tornando-se a escolha especializada para necessidades complexas de processamento de áudio.
vs Deepgram Aura: O Deepgram Aura se destaca no controle granular do perfil de voz para experiências de voz altamente personalizadas. No entanto, o GPT-Audio se diferencia por incorporar um camada completa de raciocínio de áudio multimodal, proporcionando uma compreensão contextual mais profunda das entradas de áudio.
❓ Perguntas frequentes (FAQs)
A: O GPT-Audio oferece suporte a reconhecimento de fala, reconhecimento de fala em texto, reconhecimento de texto em fala e raciocínio de áudio multimodal, abrangendo uma ampla gama de funcionalidades de IA de áudio.
A: O GPT-Audio gera uma saída de voz altamente natural e expressiva graças aos seus recursos avançados de controle de emoção e entonação, atingindo uma paridade quase humana.
R: Sim, o GPT-Audio possui um sistema robusto de gerenciamento de ruído e pode funcionar com precisão mesmo com níveis de ruído de fundo de até 85dB, tornando-o adequado para diversas situações do mundo real.
A: Enquanto o GPT-4o é uma IA multimodal de propósito geral, o GPT-Audio é altamente especializado e otimizado para tarefas de áudio de alta fidelidade, oferecendo precisão superior no reconhecimento de fala e uma saída TTS mais natural e expressiva, especificamente para processamento de áudio.
A: Com certeza. O GPT-Audio permite o treinamento ou a seleção de perfis de voz virtuais personalizados, possibilitando identidade visual única, vozes de personagens ou necessidades específicas de acessibilidade.
Playground de IA



Conecte-se