



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'openai/gpt-audio-mini',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="openai/gpt-audio-mini",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

产品详情
🚀 隆重推出 GPT Audio Mini API:面向现代应用的实时语音合成
这 GPT Audio Mini 是 GPT Audio 系列中一款先进的轻量级变体,专为高效、低延迟的语音生成而设计。这款功能强大的模型非常适合实时交互式应用,例如高级语音助手、智能聊天机器人和语音识别软件,在这些应用中,即时响应和极低的资源消耗至关重要。它巧妙地平衡了高质量的音频输出和卓越的速度,使其成为边缘设备或计算能力受限的服务的理想部署方案。
⚙️ 技术规格
- 型号: 轻量级自回归神经文本转语音(TTS)模型
- 参数数量: 大约 1 亿个参数
- 输入方式: 文本输入序列
- 输出方式: 音频波形生成
- 采样率: 24 kHz 标准输出质量
- 延迟: 平均响应时间 100毫秒 在典型的边缘设备上
- 支持的语言: 英语(主要),并计划提供多语言支持
- 模型架构: 改进型基于Transformer的编码器-解码器
- 硬件兼容性: 针对主流消费级设备的推理进行了 CPU 和 GPU 优化
📊 性能基准测试
- 语音自然度: MOS(平均意见得分) 4.1/5 在用户测试中
- 延迟比较: 速度提升30-40%。 比标准硬件上的全尺寸 GPT-Audio 更强大
- 资源使用情况: 运营地点 内存消耗降低 50-60% 比 GPT-Audio 基础模型
- 鲁棒性: 即使在高达 15 分贝的背景噪音下,也能保持语音清晰度。
✨ GPT Audio Mini 的主要功能
- 低延迟语音合成: 优化的架构确保实时交互延迟最小。
- 资源高效设计: 专为低功耗和减少内存占用而设计,非常适合资源受限的环境。
- 多功能语音生成: 能够以各种风格和语境发出自然流畅的语音。
- 紧凑型尺寸: 便于轻松集成到轻量级环境和移动平台中。
- 在噪声环境下仍具有鲁棒性: 即使在具有挑战性的声学条件下,也能保持出色的清晰度和可懂度。
- 可自定义语音输出: 允许进行微调,以符合特定的品牌风格或应用程序的特定要求。
💰 GPT Audio Mini API 定价
- 输入: 10.50 美元/100 万个音频Tokens; 0.63美元/100万Tokens (文本输入)
- 输出: 21.00 美元/100 万产量; 2.52美元/100万Tokens (音频输出)
💡 常见用例
- 语音助手: 实现快速、自然的语音回复,延迟极低。
- 客户支持机器人: 为呼叫中心和在线聊天平台提供清晰、引人入胜的语音合成功能。
- 语音识别应用: 提供实时转录转语音反馈,以增强用户体验。
- 互动式教育工具: 为辅导或语言学习程序生成动态语音输出。
- 辅助工具: 为有视觉或运动障碍的用户提供辅助技术。
- 物联网设备: 将语音功能集成到硬件资源有限的智能设备中。
💻 代码示例
🆚 与其他领先型号的比较
与 GPT-4o Mini TTS 对比: GPT-4o Mini TTS 通过声纹解耦技术增强了对语调和风格的控制,从而实现了更自然、更富有表现力的语音。 GPT Audio Mini 它经过专门优化,响应速度更快,内存占用更小,因此非常适合边缘计算。
与 OpenAI TTS-1 对比: GPT Audio Mini GPT Audio Mini 在语音生成速度方面显著优于 TTS-1,并保持了更高的整体语音自然度。TTS-1 的目标是快速合成语音,而 GPT Audio Mini 则兼顾了速度和更高的音频清晰度,使其更适合对语音合成要求较高的交互式语音助手应用。
对比 OpenAI Whisper: OpenAI Whisper 在多语言支持和转录准确性方面表现出色,而不是低延迟合成。 GPT Audio Mini 专为需要快速语音生成的交互式场景而设计,主要侧重于英语,并即将推出多语言功能。
对比 ElevenLabs Turbo: ElevenLabs Turbo 优先考虑速度,但完全依赖云端推理,缺乏离线支持。 GPT Audio Mini 在提供同等质量的同时,还能提供完整的设备隐私保护和卓越的跨平台便携性。
❓ 常见问题解答 (FAQ)
问:GPT Audio Mini 的主要用途是什么?
答:GPT Audio Mini 专为高效、低延迟的语音生成而设计,目标应用是实时交互式应用,例如语音助手和聊天机器人,在这些应用中,响应速度和资源节约至关重要。
问:GPT Audio Mini是如何实现低延迟的?
答:它采用优化的架构,最大限度地减少了处理延迟,在典型的边缘设备上,平均响应时间低于 100 毫秒。
问:GPT Audio Mini 是否适用于资源有限的设备?
答:是的,它的设计注重资源效率,运行内存消耗比基本 GPT-Audio 型号低 50-60%,使其成为边缘部署和物联网设备的理想选择。
问:GPT Audio Mini 可以根据特定的语音风格进行定制吗?
答:当然。它提供可定制的语音输出,允许进行微调,以匹配品牌声音或特定应用需求。
问:GPT Audio Mini 支持哪些语言?
答:目前主要支持英语,未来更新计划扩展多语言支持。



登录