



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'gpt-4o-audio-preview',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="gpt-4o-audio-preview",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

Detalhes do produto
✨ Apresentando a Pré-visualização de Áudio do GPT-4o
O Pré-visualização de áudio GPT-4o Inaugura uma nova era de interação perfeita entre humanos e IA, preenchendo a lacuna entre texto e fala com notável fluidez. Projetada para conversas de voz em tempo real e interpretação de áudio sofisticada, é uma ferramenta indispensável para uma ampla gama de aplicações, desde assistentes inteligentes a soluções avançadas de acessibilidade e interfaces de voz intuitivas.
🚀 Principais capacidades
- Capacidade de resposta em tempo real: Alcance um ritmo de conversa semelhante ao humano com tempos de resposta de transcrição de áudio e geração de voz com média de apenas ~320 milissegundos.
- Suporte global em idiomas: Compreensão e geração em mais de 50 idiomas, com tokenização otimizada para alfabetos não latinos, atendendo a 97% dos falantes globais.
- Inteligência Emocional: A análise avançada de sentimentos, aliada à geração de voz com nuances, possibilita uma comunicação mais rica e expressiva em termos emocionais.
- Confiabilidade aprimorada: Taxas de alucinações significativamente reduzidas e mecanismos de segurança robustos são incorporados para garantir resultados consistentes e confiáveis.
- Contexto abrangente: Uma grande janela de contexto de até 128 mil tokens permite interações coerentes e extensas sem perder o fio da meada da conversa.
💡 Aplicações pretendidas
- 🤖 Assistentes de voz: Proporcionando experiências conversacionais naturais e em tempo real.
- ♿ Ferramentas de acessibilidade: Proporcionando interação de áudio intuitiva para usuários com deficiência visual e outros.
- 📞 Suporte ao cliente: Oferecer suporte rápido, expressivo e eficiente por meio de canais de voz.
🌐 Habilidades Linguísticas
O GPT-40 oferece suporte a mais de 50 idiomasAbrangendo aproximadamente 97% dos falantes do mundo, sua tokenização avançada é otimizada especificamente para idiomas não latinos, garantindo um alcance global amplo e inclusivo.
⚙️ Fundamentos Técnicos
Arquitetura
O núcleo do GPT-4o é construído sobre a robustez Arquitetura de transformadoresAprimorado com profunda integração multimodal, ele processa perfeitamente as modalidades de texto e áudio em um modelo unificado. Seu pipeline de processamento de áudio incorpora Detecção de Atividade de Voz (VAD) avançada para facilitar a geração de respostas genuínas em tempo real.
Dados de treinamento
O treinamento envolveu uma ampla e diversificada gama de conjuntos de dados, abrangendo um vasto espectro de conteúdo de texto e áudio. O corpus de áudio inclui uma rica coleção de amostras de fala multilíngue, vários conjuntos de dados musicais, sons ambientais e dados de voz sintética meticulosamente elaborados.
Considerações sobre Diversidade e Viés
Embora o GPT-4o integre salvaguardas significativas para mitigar o viés, seu desempenho pode apresentar variabilidade em diferentes tarefas, frequentemente influenciado pelas nuances das instruções ou pela qualidade da entrada. Entre os vieses reconhecidos, incluem-se taxas de recusa inconsistentes para tarefas altamente complexas, como verificação de locutor ou extração de tom.
📊 Melhores momentos da apresentação
- ✅ Precisão: Obtivemos resultados de última geração em benchmarks importantes, como o Massive Multitask Language Understanding (MMLU), alcançando uma pontuação impressionante. 88,7O desempenho pode variar em tarefas altamente especializadas, como a classificação de altura tonal musical.
- ⚡ Velocidade: Possui um tempo médio de resposta de áudio de 320 milissegundos, permitindo um fluxo de conversação quase instantâneo e natural.
- 🛡️ Robustez: Demonstra forte generalização em uma variedade de idiomas e sotaques. No entanto, pode encontrar dificuldades com tarefas extremamente específicas ou ambíguas, como previsão de distância espacial ou estimativa de duração de áudio.
🔌 Como começar
Exemplos de código
O acesso ao modelo de pré-visualização de áudio do GPT-4o está disponível em Plataforma de API de IA/ML sob o identificador "gpt-4o-audio-preview"Integre-o em seus aplicativos usando as ferramentas e os exemplos fornecidos.
Documentação da API
Para obter diretrizes abrangentes e instruções detalhadas de integração, consulte o Documentação da API Disponível no site da API de IA/ML. Este recurso fornece tudo o que você precisa para implementar o GPT-4o com sucesso.
🔒 Considerações Éticas e Licenciamento
Diretrizes Éticas
A OpenAI integrou considerações éticas rigorosas em todo o desenvolvimento do GPT-4o, priorizando a segurança e a mitigação robusta de vieses. O modelo passou por extensas avaliações para garantir sua implementação responsável e benéfica em diversas aplicações.
Licenciamento
O GPT-4o é oferecido sob direitos de uso comercial, permitindo que empresas e desenvolvedores integrem esse modelo avançado de forma transparente em seus próprios aplicativos e serviços.
❓ Perguntas frequentes (FAQs)
P1: Para que serve principalmente a pré-visualização de áudio do GPT-4o?
A1: Foi projetado para interação perfeita e em tempo real entre texto e fala, tornando-o ideal para assistentes de voz, ferramentas de acessibilidade e aplicativos de suporte ao cliente que exigem conversas de voz naturais e semelhantes às humanas.
Q2: Qual é o tempo de resposta de áudio do GPT-4o?
A2: O GPT-4o possui um tempo médio de resposta de áudio de aproximadamente 320 milissegundos, possibilitando interações conversacionais quase instantâneas.
Q3: Quais idiomas o GPT-4o suporta?
A3: Suporta mais de 50 idiomas, abrangendo aproximadamente 97% dos falantes globais, com tokenização otimizada para alfabetos não latinos.
Q4: As empresas podem usar o GPT-40 em seus aplicativos?
A4: Sim, o GPT-4o está disponível em direitos de uso comercial, permitindo que as empresas integrem o modelo em seus próprios aplicativos.
Playground de IA



Conecte-se