



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'openai/gpt-audio',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="openai/gpt-audio",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

Подробная информация о товаре
GPT-Audio, передовая система искусственного интеллекта для обработки аудио от OpenAI, представляет собой значительный шаг вперед в аудиотехнологиях. Она способна интерпретировать и генерировать высококачественную речь и аудио с поразительной точностью в различных режимах, включая преобразование речи в речь, преобразование речи в текст, преобразование текста в речьи продвинутый многомодальное аудиорассуждениеЭта система разработана для оптимизации как рабочих процессов, управляемых голосом, так и сложных решений на основе разговорного искусственного интеллекта.
⚙️ Технические характеристики
- Тип модели: Базовая модель (архитектура на основе трансформаторов)
- Поддерживаемые режимы: Аудио (ввод/вывод), текст (ввод/вывод), многомодальное речевое, текстовое и аудиоанализ
- Форматы ввода: WAV, MP3, FLAC, PCM
- Форматы вывода: WAV, MP3, FLAC (16 кГц или 44,1 кГц(моно/стерео)
- Языки: Многоязычное покрытие (более 50 языков (и акценты)
- Максимальная длина аудиозаписи: До 30 минут по сегментам
🚀 Тесты производительности
- Показатель ошибок в словах (WER): на стандартных наборах данных речевых данных (LibriSpeech, CommonVoice)
- MOS (средняя оценка качества) синтеза речи: 4,8/5 (почти человеческий паритет)
- Точность верификации говорящего: 98,9%
- Задержка реакции: среднее значение 600 мс для синтеза речи в реальном времени
- Устойчивость к окружающему шуму: Эффективно функционирует до 85 дБ фоновый шум
✨ Ключевые особенности
- Полнодуплексный разговор: Обеспечивает бесперебойную одновременную обработку распознавания и синтеза речи для динамичного взаимодействия.
- Контроль эмоций и интонации: Создаёт удивительно естественную и выразительную речь с тонко настроенными эмоциональными нюансами.
- Идентификация говорящего: Надежно различает нескольких говорящих в многопользовательских аудиосистемах.
- Шумоустойчивость: Обеспечивает высокую точность даже в шумной и динамичной обстановке, гарантируя четкую связь.
- Пользовательские голосовые профили: Предоставляет возможность обучения или выбора виртуальных голосов, что идеально подходит для обеспечения единообразия бренда или доступности.
- Мультимодальное рассуждение: Интегрирует звуковые сигналы, голосовые данные и текстовые подсказки для всестороннего, гибридного понимания контекста.
💰 Цены на GPT Audio API
- Вход: 33,60 долл. США / 1 млн аудиотокенов; 2,63 доллара США / 1 млн токенов
- Выход: 67,20 долл. США / 1 млн токенов; 10,50 долларов США / 1 млн токенов
💡 Варианты использования
- Разговорные ИИ-агенты: Обеспечивает работу передового обслуживания клиентов, интеллектуальных голосовых чат-ботов и отзывчивых цифровых помощников.
- Инструменты обеспечения доступности: Обеспечение возможности создания субтитров в реальном времени для прямых трансляций и эффективного перевода речи для глобального общения.
- Создание контента: Обеспечение автоматизированного озвучивания статей, профессионального создания подкастов и интерактивных аудиокниг.
- Рассуждения на основе голоса: Расширенные возможности поиска аудиофайлов, интуитивно понятные интерфейсы голосового управления и сложная многомодальная аналитика для получения более глубоких выводов.
Пример кода
// Пример: Интеграция API GPT-Audio для преобразования текста в речь
// Подробную информацию о реализации и полные примеры кода см. в официальной документации API OpenAI.
🆚 Сравнение с другими моделями
против OpenAI Whisper: GPT-Audio предлагает более широкий спектр функций, в частности, выразительный синтез речи, выходящий за рамки возможностей Whisper, ориентированных на транскрипцию.
против OpenAI GPT-4o (Omni): Хотя GPT-4o является флагманской мультимодальной моделью, поддерживающей широкий спектр голосовых, текстовых, видео- и аудиовходов, GPT-Audio специально оптимизирован для этой цели. Для задач обработки высококачественного звука. Он обеспечивает превосходную точность распознавания речи и более естественный, выразительный вывод речи из текста, что делает его специализированным выбором для сложных задач обработки звука.
против Deepgram Aura: Deepgram Aura превосходно справляется с детальным управлением голосовым профилем для создания максимально персонализированных голосовых настроек. Однако GPT-Audio выделяется тем, что включает в себя... полный многомодальный аудиослой рассуждений, обеспечивая более глубокое контекстное понимание аудиовходов.
❓ Часто задаваемые вопросы (FAQ)
A: GPT-Audio поддерживает преобразование речи в речь, речи в текст, текста в речь и многомодальное аудиоанализ, охватывая широкий спектр функций искусственного интеллекта в области аудио.
A: GPT-Audio генерирует очень естественную и выразительную речь благодаря своим расширенным возможностям управления эмоциями и интонацией, достигая почти человеческого уровня звучания.
A: Да, GPT-Audio обладает надежной защитой от шума и может точно работать даже при уровне фонового шума до 85 дБ, что делает его подходящим для различных реальных условий эксплуатации.
A: В то время как GPT-4o — это универсальный многомодальный ИИ, GPT-Audio — это узкоспециализированный инструмент, оптимизированный для задач обработки высококачественного звука, предлагающий превосходную точность распознавания речи и более естественный, выразительный вывод синтеза речи, специально разработанный для обработки аудио.
А: Безусловно. GPT-Audio позволяет обучать или выбирать пользовательские виртуальные голосовые профили, что дает возможность создавать уникальный бренд, голоса персонажей или удовлетворять особые потребности в плане доступности.
Игровая площадка для ИИ



Авторизоваться