qwen-bg
ico máximo04
128K
En
Afuera
ico-máximo02
Charlar
ico-máximo03
desactivar
Audio GPT
Ya sea reconociendo enunciados complejos, sintetizando respuestas expresivas o razonando a través de diferentes modalidades, sigue demostrando una notable capacidad de respuesta y adaptabilidad.
Fichas de $1 gratis para nuevos miembros
Text to Speech
                                        import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const answer = await api.chat.completions.create({
    model: 'openai/gpt-audio',
    modalities: ['text', 'audio'],
    audio: { voice: 'alloy', format: 'wav' },
    messages: [
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  console.log(answer.choices[0]);

  writeFileSync(
    'answer.wav',
    Buffer.from(answer.choices[0].message.audio.data, 'base64'),
    { encoding: 'utf-8' }
  );
};

main();

                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="openai/gpt-audio",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

print(response.choices[0])

wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
    f.write(wav_bytes)
Docs

Más de 300 modelos de IA para OpenClaw y agentes de IA

Ahorra un 20% en costes y obtén fichas gratis de 1 $.
qwenmax-bg
imagen
Audio GPT

Detalles del producto

GPT-Audio, un sistema de IA de audio de última generación de OpenAI, representa un salto significativo en la tecnología de audio. Es capaz de interpretar y generar voz y audio de alta fidelidad con una precisión notable en varios modos, incluyendo: conversión de voz a voz, conversión de voz a texto, texto a vozy avanzado razonamiento de audio multimodalEste sistema está diseñado para optimizar tanto los flujos de trabajo controlados por voz como las sofisticadas soluciones de IA conversacional.

⚙️ Especificaciones técnicas

  • Tipo de modelo: Modelo de Fundación (arquitectura basada en transformadores)
  • Modalidades compatibles: Audio (entrada/salida), Texto (entrada/salida), Razonamiento multimodal de voz-texto-audio
  • Formatos de entrada: WAV, MP3, FLAC, PCM
  • Formatos de salida: WAV, MP3, FLAC (16 kHz o 44,1 kHz(mono/estéreo)
  • Idiomas: Cobertura multilingüe (más de 50 idiomas y acentos)
  • Duración máxima del audio: Arriba a 30 minutos por segmento

🚀 Puntos de referencia de rendimiento

  • Tasa de error de palabras (WER): en conjuntos de datos de voz estándar (LibriSpeech, CommonVoice)
  • MOS (Puntuación Media de Opinión) para la síntesis de voz: 4,8/5 (paridad casi humana)
  • Precisión en la verificación del hablante: 98,9%
  • Latencia de reacción: promedio de 600 ms para síntesis de voz en tiempo real
  • Resistencia al ruido ambiental: Funciona eficazmente hasta 85 dB ruido de fondo

✨ Características principales

  • Conversación dúplex completa: Gestiona a la perfección el reconocimiento y la síntesis de voz simultáneos para interacciones dinámicas.
  • Control de la emoción y la entonación: Genera un habla extraordinariamente natural y expresiva, con matices emocionales finamente ajustados.
  • Identificación del hablante: Diferencia de forma fiable a varios interlocutores en entornos de audio con múltiples participantes.
  • Resistencia al ruido: Mantiene una alta precisión incluso en entornos ruidosos y dinámicos, lo que garantiza una comunicación clara.
  • Perfiles de voz personalizados: Ofrece la posibilidad de entrenar o seleccionar voces virtuales, ideal para la coherencia de la marca o la accesibilidad.
  • Razonamiento multimodal: Integra señales de audio, datos hablados e indicaciones textuales para una comprensión integral e híbrida del contexto.

💰 Precios de la API de audio GPT

  • Aporte: $33.60 / 1M de tokens de audio; 2,63 $ / 1 millón de tokens
  • Producción: $67.20 / 1M tokens de salida; $10.50 / 1M tokens

💡 Casos de uso

  • Agentes de IA conversacionales: Impulsamos un servicio al cliente avanzado, chatbots de voz inteligentes y asistentes digitales receptivos.
  • Herramientas de accesibilidad: Permite la generación de subtítulos en tiempo real mediante la conversión de voz a texto para eventos en directo y una traducción de voz eficiente para la comunicación global.
  • Creación de contenido: Facilitamos la narración automatizada de artículos, la producción profesional de podcasts y los audiolibros interactivos.
  • Razonamiento basado en la voz: Mejora de las capacidades de búsqueda de audio, interfaces intuitivas de comandos de voz y análisis multimodales sofisticados para obtener información más detallada.

Ejemplo de código


// Ejemplo: Integración de la API GPT-Audio para la conversión de texto a voz
// Para obtener información detallada sobre la implementación y ejemplos de código completos, consulte la documentación oficial de la API de OpenAI.

🆚 Comparación con otros modelos

vs OpenAI Whisper: GPT-Audio ofrece una gama más amplia de funcionalidades, que incluye, en particular, la síntesis de voz expresiva, yendo más allá de las capacidades de transcripción de Whisper.

vs OpenAI GPT-4o (Omni): Si bien GPT-4o es un modelo multimodal emblemático que admite entradas de voz, texto, visión y audio completas, GPT-Audio está optimizado específicamente Para tareas de audio de alta fidelidad, ofrece una precisión superior en el reconocimiento de voz y una conversión de texto a voz más natural y expresiva, lo que la convierte en la opción especializada para necesidades complejas de procesamiento de audio.

vs Deepgram Aura: Deepgram Aura destaca por su control granular del perfil de voz para experiencias de voz altamente personalizadas. Sin embargo, GPT-Audio se distingue por incorporar una capa de razonamiento de audio multimodal completa, lo que proporciona una comprensión contextual más profunda de las entradas de audio.

❓ Preguntas frecuentes (FAQ)

P: ¿Cuáles son los modos principales compatibles con GPT-Audio?
A: GPT-Audio admite la conversión de voz a voz, de voz a texto, de texto a voz y el razonamiento de audio multimodal, abarcando una amplia gama de funcionalidades de IA de audio.
P: ¿Qué tan natural es el habla generada por GPT-Audio?
A: GPT-Audio genera una salida de voz muy natural y expresiva gracias a sus avanzadas capacidades de control de emociones e entonación, logrando una paridad casi humana.
P: ¿Puede GPT-Audio funcionar con precisión en entornos ruidosos?
R: Sí, GPT-Audio ofrece un manejo de ruido robusto y puede funcionar con precisión incluso con niveles de ruido de fondo de hasta 85 dB, lo que lo hace adecuado para diversos entornos del mundo real.
P: ¿Cuál es la principal diferencia entre GPT-Audio y GPT-4o de OpenAI?
A: Si bien GPT-4o es una IA multimodal de propósito general, GPT-Audio está altamente especializada y optimizada para tareas de audio de alta fidelidad, ofreciendo una precisión superior en el reconocimiento de voz y una salida TTS más natural y expresiva específicamente para el procesamiento de audio.
P: ¿Es posible crear perfiles de voz personalizados con GPT-Audio?
R: Por supuesto. GPT-Audio permite entrenar o seleccionar perfiles de voz virtuales personalizados, lo que posibilita la creación de marcas únicas, voces de personajes o necesidades específicas de accesibilidad.

Campo de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos