128K

Вне

Чат

запрещать

GPT Audio

Будь то распознавание сложных высказываний, синтез выразительных ответов или рассуждение в различных модальностях, система остается удивительно отзывчивой и адаптивной.

Новые участники получат бесплатные токены номиналом 1 доллар.

Text to Speech

Javascript

Python

                                        import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const answer = await api.chat.completions.create({
    model: 'openai/gpt-audio',
    modalities: ['text', 'audio'],
    audio: { voice: 'alloy', format: 'wav' },
    messages: [
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  console.log(answer.choices[0]);

  writeFileSync(
    'answer.wav',
    Buffer.from(answer.choices[0].message.audio.data, 'base64'),
    { encoding: 'utf-8' }
  );
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="openai/gpt-audio",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

print(response.choices[0])

wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
    f.write(wav_bytes)

Docs

Более 300 моделей ИИ для OpenClaw и агентов ИИ.

Сэкономьте 20% на расходах и получите бесплатные токены на 1 доллар.

Получить ключ API Изучите модели

GPT Audio

Подробная информация о товаре

GPT-Audio, передовая система искусственного интеллекта для обработки аудио от OpenAI, представляет собой значительный шаг вперед в аудиотехнологиях. Она способна интерпретировать и генерировать высококачественную речь и аудио с поразительной точностью в различных режимах, включая преобразование речи в речь, преобразование речи в текст, преобразование текста в речьи продвинутый многомодальное аудиорассуждениеЭта система разработана для оптимизации как рабочих процессов, управляемых голосом, так и сложных решений на основе разговорного искусственного интеллекта.

⚙️ Технические характеристики

Тип модели: Базовая модель (архитектура на основе трансформаторов)
Поддерживаемые режимы: Аудио (ввод/вывод), текст (ввод/вывод), многомодальное речевое, текстовое и аудиоанализ
Форматы ввода: WAV, MP3, FLAC, PCM
Форматы вывода: WAV, MP3, FLAC (16 кГц или 44,1 кГц(моно/стерео)
Языки: Многоязычное покрытие (более 50 языков (и акценты)
Максимальная длина аудиозаписи: До 30 минут по сегментам

🚀 Тесты производительности

Показатель ошибок в словах (WER): на стандартных наборах данных речевых данных (LibriSpeech, CommonVoice)
MOS (средняя оценка качества) синтеза речи: 4,8/5 (почти человеческий паритет)
Точность верификации говорящего: 98,9%
Задержка реакции: среднее значение 600 мс для синтеза речи в реальном времени
Устойчивость к окружающему шуму: Эффективно функционирует до 85 дБ фоновый шум

✨ Ключевые особенности

Полнодуплексный разговор: Обеспечивает бесперебойную одновременную обработку распознавания и синтеза речи для динамичного взаимодействия.
Контроль эмоций и интонации: Создаёт удивительно естественную и выразительную речь с тонко настроенными эмоциональными нюансами.
Идентификация говорящего: Надежно различает нескольких говорящих в многопользовательских аудиосистемах.
Шумоустойчивость: Обеспечивает высокую точность даже в шумной и динамичной обстановке, гарантируя четкую связь.
Пользовательские голосовые профили: Предоставляет возможность обучения или выбора виртуальных голосов, что идеально подходит для обеспечения единообразия бренда или доступности.
Мультимодальное рассуждение: Интегрирует звуковые сигналы, голосовые данные и текстовые подсказки для всестороннего, гибридного понимания контекста.

💰 Цены на GPT Audio API

Вход: 33,60 долл. США / 1 млн аудиотокенов; 2,63 доллара США / 1 млн токенов
Выход: 67,20 долл. США / 1 млн токенов; 10,50 долларов США / 1 млн токенов

💡 Варианты использования

Разговорные ИИ-агенты: Обеспечивает работу передового обслуживания клиентов, интеллектуальных голосовых чат-ботов и отзывчивых цифровых помощников.
Инструменты обеспечения доступности: Обеспечение возможности создания субтитров в реальном времени для прямых трансляций и эффективного перевода речи для глобального общения.
Создание контента: Обеспечение автоматизированного озвучивания статей, профессионального создания подкастов и интерактивных аудиокниг.
Рассуждения на основе голоса: Расширенные возможности поиска аудиофайлов, интуитивно понятные интерфейсы голосового управления и сложная многомодальная аналитика для получения более глубоких выводов.

Пример кода

 
// Пример: Интеграция API GPT-Audio для преобразования текста в речь
// Подробную информацию о реализации и полные примеры кода см. в официальной документации API OpenAI.         

🆚 Сравнение с другими моделями

против OpenAI Whisper: GPT-Audio предлагает более широкий спектр функций, в частности, выразительный синтез речи, выходящий за рамки возможностей Whisper, ориентированных на транскрипцию.

против OpenAI GPT-4o (Omni): Хотя GPT-4o является флагманской мультимодальной моделью, поддерживающей широкий спектр голосовых, текстовых, видео- и аудиовходов, GPT-Audio специально оптимизирован для этой цели. Для задач обработки высококачественного звука. Он обеспечивает превосходную точность распознавания речи и более естественный, выразительный вывод речи из текста, что делает его специализированным выбором для сложных задач обработки звука.

против Deepgram Aura: Deepgram Aura превосходно справляется с детальным управлением голосовым профилем для создания максимально персонализированных голосовых настроек. Однако GPT-Audio выделяется тем, что включает в себя... полный многомодальный аудиослой рассуждений, обеспечивая более глубокое контекстное понимание аудиовходов.

❓ Часто задаваемые вопросы (FAQ)

В: Какие основные режимы поддерживает GPT-Audio?
A: GPT-Audio поддерживает преобразование речи в речь, речи в текст, текста в речь и многомодальное аудиоанализ, охватывая широкий спектр функций искусственного интеллекта в области аудио.

В: Насколько естественно звучит речь, генерируемая GPT-Audio?
A: GPT-Audio генерирует очень естественную и выразительную речь благодаря своим расширенным возможностям управления эмоциями и интонацией, достигая почти человеческого уровня звучания.

В: Может ли GPT-Audio обеспечивать точную работу в условиях сильного шума?
A: Да, GPT-Audio обладает надежной защитой от шума и может точно работать даже при уровне фонового шума до 85 дБ, что делает его подходящим для различных реальных условий эксплуатации.

В: В чём основное различие между GPT-Audio и GPT-4o от OpenAI?
A: В то время как GPT-4o — это универсальный многомодальный ИИ, GPT-Audio — это узкоспециализированный инструмент, оптимизированный для задач обработки высококачественного звука, предлагающий превосходную точность распознавания речи и более естественный, выразительный вывод синтеза речи, специально разработанный для обработки аудио.

В: Возможно ли создание пользовательских голосовых профилей в GPT-Audio?
А: Безусловно. GPT-Audio позволяет обучать или выбирать пользовательские виртуальные голосовые профили, что дает возможность создавать уникальный бренд, голоса персонажей или удовлетворять особые потребности в плане доступности.

Игровая площадка для ИИ

Перед интеграцией протестируйте все модели API в тестовой среде. Мы предоставляем более 300 моделей для интеграции в ваше приложение.

Попробуйте бесплатно

Более 300 моделей ИИ для
OpenClaw и агенты искусственного интеллекта

Сэкономьте 20% на расходах