

在
出去


Text to Speech
import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'openai/gpt-audio',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="openai/gpt-audio",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

产品详情
OpenAI 的 GPT-Audio 是一款先进的音频 AI 系统,代表了音频技术的重大飞跃。它能够以惊人的精度在各种模式下解释和生成高保真语音和音频,包括 语音转语音, 语音转文字, 文本转语音以及高级 多模态音频推理该系统旨在简化语音驱动的工作流程和复杂的对话式人工智能解决方案。
⚙️ 技术规格
- 型号: 基础模型(基于Transformer的架构)
- 支持的模式: 音频(输入/输出)、文本(输入/输出)、多模态语音-文本-音频推理
- 输入格式: WAV、MP3、FLAC、PCM
- 输出格式: WAV、MP3、FLAC(16kHz 或 44.1kHz(单声道/立体声)
- 语言: 多语言覆盖(超过) 50种语言 和口音)
- 最大音频长度: 至多 30分钟 每个细分市场
🚀 性能基准测试
- 词错误率(WER): 小于2% 基于标准语音数据集(LibriSpeech、CommonVoice)
- 语音合成的 MOS(平均意见得分): 4.8/5 (接近人类水平)
- 说话人验证准确率: 98.9%
- 反应延迟: 平均600毫秒 用于实时文本转语音
- 环境噪声鲁棒性: 功能有效高达 85分贝 背景噪音
✨ 主要特点
- 全双工对话: 无缝处理动态交互中的同步语音识别和合成。
- 情绪和语调控制: 能够生成极其自然、富有表现力的语音输出,并能精准地表达情感细微差别。
- 说话人识别: 能够可靠地区分多人音频环境中的多个说话者。
- 噪声鲁棒性: 即使在嘈杂和动态的环境中也能保持高精度,确保清晰的通信。
- 自定义语音配置文件: 提供训练或选择虚拟语音的功能,非常适合品牌一致性或无障碍访问。
- 多模态推理: 整合音频提示、语音数据和文本提示,以全面、混合的方式理解上下文。
💰 GPT 音频 API 定价
- 输入: 33.60 美元/100 万个音频Tokens;每百万Tokens 2.63 美元
- 输出: 每百万个输出Tokens 67.20 美元;10.50 美元/100 万Tokens
💡 使用案例
- 对话式人工智能代理: 为先进的客户服务、智能语音聊天机器人和响应迅速的数字助理提供支持。
- 辅助工具: 为现场活动提供实时语音转文本字幕,并为全球通信提供高效的语音翻译。
- 内容创作: 为文章、专业播客制作和互动式有声读物提供自动旁白功能。
- 基于语音的推理: 增强音频搜索功能、直观的语音命令界面和复杂的多模态分析,以获得更深入的洞察。
代码示例
// 示例:集成 GPT-Audio API 实现文本转语音
// 有关详细实现和完整代码示例,请参阅 OpenAI 的官方 API 文档。
🆚 与其他型号的比较
对比 OpenAI Whisper: GPT-Audio 提供了更广泛的功能,尤其包括富有表现力的语音合成,超越了 Whisper 以转录为中心的功能。
与 OpenAI GPT-4o (Omni) 对比: 虽然 GPT-4o 是一款旗舰级多模态模型,支持全面的语音、文本、视觉和音频输入, GPT-Audio 经过专门优化 适用于高保真音频任务。它提供卓越的语音识别准确率和更自然、更富有表现力的文本转语音输出,使其成为满足复杂音频处理需求的专业之选。
对阵 Deepgram Aura: Deepgram Aura 在精细的语音配置文件控制方面表现出色,可实现高度定制化的语音体验。然而,GPT-Audio 的独特之处在于它整合了…… 完整的多模态音频推理层从而提供对音频输入更深入的上下文理解。
❓ 常见问题解答 (FAQ)
问:GPT-Audio 支持哪些主要模式?
答:GPT-Audio 支持语音转语音、语音转文本、文本转语音和多模态音频推理,涵盖了广泛的音频 AI 功能。
答:GPT-Audio 支持语音转语音、语音转文本、文本转语音和多模态音频推理,涵盖了广泛的音频 AI 功能。
问:GPT-Audio 生成的语音有多自然?
答:GPT-Audio凭借其先进的情感和语调控制功能,能够生成高度自然且富有表现力的语音输出,达到接近人类的水平。
答:GPT-Audio凭借其先进的情感和语调控制功能,能够生成高度自然且富有表现力的语音输出,达到接近人类的水平。
问:GPT-Audio 在嘈杂的环境中能否准确运行?
答:是的,GPT-Audio 具有强大的噪声处理能力,即使在高达 85dB 的背景噪声水平下也能准确工作,使其适用于各种实际环境。
答:是的,GPT-Audio 具有强大的噪声处理能力,即使在高达 85dB 的背景噪声水平下也能准确工作,使其适用于各种实际环境。
问:GPT-Audio 和 OpenAI 的 GPT-4o 的主要区别是什么?
答:虽然 GPT-4o 是一个通用的多模态 AI,但 GPT-Audio 是高度专业化的,并针对高保真音频任务进行了优化,可提供更卓越的语音识别准确率和更自然、更富有表现力的 TTS 输出,专门用于音频处理。
答:虽然 GPT-4o 是一个通用的多模态 AI,但 GPT-Audio 是高度专业化的,并针对高保真音频任务进行了优化,可提供更卓越的语音识别准确率和更自然、更富有表现力的 TTS 输出,专门用于音频处理。
问:GPT-Audio 是否支持自定义语音配置文件?
答:当然。GPT-Audio 允许训练或选择自定义虚拟语音配置文件,从而实现独特的品牌形象、角色配音或满足特定的辅助功能需求。
答:当然。GPT-Audio 允许训练或选择自定义虚拟语音配置文件,从而实现独特的品牌形象、角色配音或满足特定的辅助功能需求。



登录