128 mil

Fora

Bater papo

desativar

Áudio GPT

Seja reconhecendo enunciados complexos, sintetizando respostas expressivas ou raciocinando entre diferentes modalidades, ela permanece notavelmente responsiva e adaptável.

Tokens de $1 grátis para novos membros

Text to Speech

Javascript

Python

                                        import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const answer = await api.chat.completions.create({
    model: 'openai/gpt-audio',
    modalities: ['text', 'audio'],
    audio: { voice: 'alloy', format: 'wav' },
    messages: [
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  console.log(answer.choices[0]);

  writeFileSync(
    'answer.wav',
    Buffer.from(answer.choices[0].message.audio.data, 'base64'),
    { encoding: 'utf-8' }
  );
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="openai/gpt-audio",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

print(response.choices[0])

wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
    f.write(wav_bytes)

Docs

Uma API com mais de 300 modelos de IA

Economize 20% nos custos e ganhe tokens grátis de $1.

Obter chave de API Explorar modelos

Áudio GPT

Detalhes do produto

O GPT-Audio, um sistema de IA de áudio de última geração da OpenAI, representa um salto significativo na tecnologia de áudio. Ele é capaz de interpretar e gerar fala e áudio de alta fidelidade com notável precisão em vários modos, incluindo fala para fala, conversão de fala em texto, texto para falae avançado raciocínio de áudio multimodalEste sistema foi projetado para otimizar tanto os fluxos de trabalho controlados por voz quanto as soluções sofisticadas de IA conversacional.

⚙️ Especificações Técnicas

Tipo de modelo: Modelo de Fundação (arquitetura baseada em transformadores)
Modalidades suportadas: Áudio (entrada/saída), Texto (entrada/saída), Raciocínio multimodal de fala, texto e áudio
Formatos de entrada: WAV, MP3, FLAC, PCM
Formatos de saída: WAV, MP3, FLAC (16kHz ou 44,1kHz(mono/estéreo)
Idiomas: Cobertura multilíngue (mais de) 50 idiomas e sotaques)
Duração máxima do áudio: Até 30 minutos por segmento

🚀 Indicadores de desempenho

Taxa de Erro de Palavras (WER): em conjuntos de dados de fala padrão (LibriSpeech, CommonVoice)
MOS (Pontuação Média de Opinião) para Síntese de Fala: 4,8/5 (quase paridade humana)
Precisão da verificação do locutor: 98,9%
Latência de reação: média de 600 ms para TTS em tempo real
Robustez ao ruído ambiente: Funciona eficazmente até 85dB ruído de fundo

✨ Principais características

Conversa full-duplex: Gerencia perfeitamente o reconhecimento e a síntese simultâneos de fala para interações dinâmicas.
Controle da emoção e da entonação: Gera uma produção de fala notavelmente natural e expressiva, com nuances emocionais refinadas.
Identificação do orador: Diferencia de forma confiável vários falantes em ambientes de áudio com múltiplos participantes.
Robustez ao ruído: Mantém alta precisão mesmo em ambientes ruidosos e dinâmicos, garantindo uma comunicação clara.
Perfis de voz personalizados: Oferece a possibilidade de treinar ou selecionar vozes virtuais, ideal para garantir consistência da marca ou acessibilidade.
Raciocínio multimodal: Integra pistas de áudio, dados falados e instruções textuais para uma compreensão abrangente e híbrida do contexto.

💰 Preços da API de áudio GPT

Entrada: US$ 33,60 / 1 milhão de tokens de áudio; US$ 2,63 / 1 milhão de tokens
Saída: US$ 67,20 / 1 milhão de tokens de saída; US$ 10,50 / 1 milhão de tokens

💡 Casos de uso

Agentes de IA conversacionais: Impulsionando o atendimento avançado ao cliente, chatbots de voz inteligentes e assistentes digitais responsivos.
Ferramentas de acessibilidade: Possibilitando a legendagem em tempo real de discurso para texto em eventos ao vivo e a tradução de voz eficiente para comunicação global.
Criação de conteúdo: Facilitando a narração automatizada de artigos, a produção profissional de podcasts e audiolivros interativos.
Raciocínio baseado na voz: Aprimoramento das capacidades de busca por áudio, interfaces intuitivas de comando de voz e análises multimodais sofisticadas para insights mais profundos.

Exemplo de código

 
// Exemplo: Integração da API GPT-Audio para conversão de texto em fala
Para obter detalhes da implementação e exemplos de código completos, consulte a documentação oficial da API da OpenAI.         

🆚 Comparação com outros modelos

vs OpenAI Whisper: O GPT-Audio oferece uma gama mais ampla de funcionalidades, incluindo, principalmente, a síntese de fala expressiva, indo além das capacidades do Whisper, que são focadas em transcrição.

vs OpenAI GPT-4o (Omni): Embora o GPT-4o seja um modelo multimodal de ponta que suporta entradas abrangentes de voz, texto, visão e áudio, O GPT-Audio é especificamente otimizado. Ideal para tarefas de áudio de alta fidelidade. Oferece precisão superior no reconhecimento de fala e uma saída de texto para fala mais natural e expressiva, tornando-se a escolha especializada para necessidades complexas de processamento de áudio.

vs Deepgram Aura: O Deepgram Aura se destaca no controle granular do perfil de voz para experiências de voz altamente personalizadas. No entanto, o GPT-Audio se diferencia por incorporar um camada completa de raciocínio de áudio multimodal, proporcionando uma compreensão contextual mais profunda das entradas de áudio.

❓ Perguntas frequentes (FAQs)

P: Quais são os principais modos suportados pelo GPT-Audio?
A: O GPT-Audio oferece suporte a reconhecimento de fala, reconhecimento de fala em texto, reconhecimento de texto em fala e raciocínio de áudio multimodal, abrangendo uma ampla gama de funcionalidades de IA de áudio.

P: Quão natural é a fala gerada pelo GPT-Audio?
A: O GPT-Audio gera uma saída de voz altamente natural e expressiva graças aos seus recursos avançados de controle de emoção e entonação, atingindo uma paridade quase humana.

P: O GPT-Audio consegue funcionar com precisão em ambientes ruidosos?
R: Sim, o GPT-Audio possui um sistema robusto de gerenciamento de ruído e pode funcionar com precisão mesmo com níveis de ruído de fundo de até 85dB, tornando-o adequado para diversas situações do mundo real.

P: Qual é a principal diferença entre o GPT-Audio e o GPT-4o da OpenAI?
A: Enquanto o GPT-4o é uma IA multimodal de propósito geral, o GPT-Audio é altamente especializado e otimizado para tarefas de áudio de alta fidelidade, oferecendo precisão superior no reconhecimento de fala e uma saída TTS mais natural e expressiva, especificamente para processamento de áudio.

P: É possível criar perfis de voz personalizados com o GPT-Audio?
A: Com certeza. O GPT-Audio permite o treinamento ou a seleção de perfis de voz virtuais personalizados, possibilitando identidade visual única, vozes de personagens ou necessidades específicas de acessibilidade.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Experimente grátis

Uma API
Mais de 300 modelos de IA

Economize 20% nos custos