qwen-bg
max-ico04
128K
En
Afuera
max-ico02
Charlar
max-ico03
desactivar
Audio GPT
Ya sea al reconocer expresiones complejas, sintetizar respuestas expresivas o razonar entre modalidades, sigue siendo notablemente receptivo y adaptable.
Tokens gratis de $1 para nuevos miembros
Text to Speech
                                        import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const answer = await api.chat.completions.create({
    model: 'openai/gpt-audio',
    modalities: ['text', 'audio'],
    audio: { voice: 'alloy', format: 'wav' },
    messages: [
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  console.log(answer.choices[0]);

  writeFileSync(
    'answer.wav',
    Buffer.from(answer.choices[0].message.audio.data, 'base64'),
    { encoding: 'utf-8' }
  );
};

main();

                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="openai/gpt-audio",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

print(response.choices[0])

wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
    f.write(wav_bytes)
Docs

Una API con más de 300 modelos de IA

Ahorre un 20% en costos y $1 en tokens gratis
qwenmax-bg
imagen
Audio GPT

Detalle del producto

GPT-Audio, un sistema de IA de audio de vanguardia de OpenAI, representa un avance significativo en la tecnología de audio. Es capaz de interpretar y generar voz y audio de alta fidelidad con una precisión notable en varios modos, incluyendo voz a voz, voz a texto, texto a voz, y avanzado razonamiento de audio multimodalEste sistema está diseñado para optimizar tanto los flujos de trabajo controlados por voz como las sofisticadas soluciones de inteligencia artificial conversacional.

⚙️ Especificaciones técnicas

  • Tipo de modelo: Modelo de Fundación (Arquitectura basada en transformadores)
  • Modalidades admitidas: Audio (entrada/salida), Texto (entrada/salida), Razonamiento multimodal voz-texto-audio
  • Formatos de entrada: WAV, MP3, FLAC, PCM
  • Formatos de salida: WAV, MP3, FLAC (16 kHz o 44,1 kHz(mono/estéreo)
  • Idiomas: Cobertura multilingüe (más de 50 idiomas y acentos)
  • Duración máxima del audio: Arriba a 30 minutos por segmento

🚀 Puntos de referencia de rendimiento

  • Tasa de error de palabras (WER): sobre conjuntos de datos de voz estándar (LibriSpeech, CommonVoice)
  • MOS (puntuación media de opinión) para síntesis de voz: 4.8/5 (casi la paridad humana)
  • Precisión de verificación del hablante: 98,9%
  • Latencia de reacción: Promedio de 600 ms para TTS en tiempo real
  • Robustez al ruido ambiental: Funciona eficazmente hasta 85 dB ruido de fondo

✨ Características principales

  • Conversación full-duplex: Maneja sin problemas el reconocimiento y síntesis de voz simultáneos para interacciones dinámicas.
  • Control de la emoción y la entonación: Genera un discurso extraordinariamente natural y expresivo con matices emocionales perfectamente afinados.
  • Identificación del orador: Diferencia de forma confiable a varios hablantes en entornos de audio con múltiples participantes.
  • Robustez al ruido: Mantiene una alta precisión incluso en entornos ruidosos y dinámicos, lo que garantiza una comunicación clara.
  • Perfiles de voz personalizados: Ofrece la posibilidad de entrenar o seleccionar voces virtuales, perfecto para la coherencia de la marca o la accesibilidad.
  • Razonamiento multimodal: Integra señales de audio, datos hablados e indicaciones textuales para una comprensión integral e híbrida del contexto.

Precios de la API de audio GPT

  • Aporte: $33.60 / 1 millón de tokens de audio; $2,63 / 1 millón de tokens
  • Producción: $67,20 / 1 millón de tokens de salida; $10,50 / 1 millón de tokens

💡 Casos de uso

  • Agentes de IA conversacional: Impulsamos un servicio al cliente avanzado, chatbots de voz inteligentes y asistentes digitales receptivos.
  • Herramientas de accesibilidad: Habilitación de subtítulos de voz a texto en tiempo real para eventos en vivo y traducción de voz eficiente para la comunicación global.
  • Creación de contenido: Facilitamos la narración automatizada para artículos, producción profesional de podcasts y audiolibros interactivos.
  • Razonamiento basado en la voz: Mejora de las capacidades de búsqueda de audio, interfaces de comandos hablados intuitivas y análisis multimodales sofisticados para obtener información más profunda.

Ejemplo de código


// Ejemplo: Integración de la API GPT-Audio para texto a voz
// Para obtener una implementación detallada y ejemplos de código completos, consulte la documentación oficial de la API de OpenAI.

🆚 Comparación con otros modelos

frente a OpenAI Whisper: GPT-Audio ofrece una gama más amplia de funcionalidades, que incluye en particular síntesis de voz expresiva, yendo más allá de las capacidades centradas en la transcripción de Whisper.

frente a OpenAI GPT-4o (Omni): Si bien GPT-4o es un modelo multimodal insignia que admite entradas integrales de voz, texto, visión y audio, GPT-Audio está específicamente optimizado Para tareas de audio de alta fidelidad. Ofrece una precisión superior en el reconocimiento de voz y una conversión de texto a voz más natural y expresiva, lo que lo convierte en la opción ideal para necesidades complejas de procesamiento de audio.

vs Deepgram Aura: Deepgram Aura destaca por su control granular de perfiles de voz para experiencias de voz altamente personalizadas. Sin embargo, GPT-Audio se distingue por incorporar... capa de razonamiento de audio multimodal completa, proporcionando una comprensión contextual más profunda de las entradas de audio.

❓ Preguntas frecuentes (FAQ)

P: ¿Cuáles son los principales modos compatibles con GPT-Audio?
R: GPT-Audio admite conversión de voz a voz, de voz a texto, de texto a voz y razonamiento de audio multimodal, cubriendo una amplia gama de funcionalidades de IA de audio.
P: ¿Qué tan natural es el habla generada por GPT-Audio?
A: GPT-Audio genera una salida de voz altamente natural y expresiva gracias a sus capacidades avanzadas de control de emociones y entonación, logrando una paridad casi humana.
P: ¿Puede GPT-Audio funcionar con precisión en entornos ruidosos?
R: Sí, GPT-Audio cuenta con un manejo de ruido robusto y puede funcionar con precisión incluso con niveles de ruido de fondo de hasta 85 dB, lo que lo hace adecuado para diversas configuraciones del mundo real.
P: ¿Cuál es la diferencia principal entre GPT-Audio y GPT-4o de OpenAI?
R: Mientras que GPT-4o es una IA multimodal de propósito general, GPT-Audio está altamente especializada y optimizada para tareas de audio de alta fidelidad, ofreciendo una precisión de reconocimiento de voz superior y una salida TTS más natural y expresiva específicamente para el procesamiento de audio.
P: ¿Es posible crear perfiles de voz personalizados con GPT-Audio?
R: Por supuesto. GPT-Audio permite entrenar o seleccionar perfiles de voz virtuales personalizados, lo que permite crear una marca única, voces de personajes o satisfacer necesidades específicas de accesibilidad.

Patio de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Una API
Más de 300 modelos de IA

Ahorre un 20% en costos