qwen-bg
max-ico04
128K
出去
max-ico02
聊天
max-ico03
禁用
GPT Audio Mini
它在保持效率的同时,提供稳定、自然的语音输出,使资源有限的设备也能实现语音交互。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const answer = await api.chat.completions.create({
    model: 'openai/gpt-audio-mini',
    modalities: ['text', 'audio'],
    audio: { voice: 'alloy', format: 'wav' },
    messages: [
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  console.log(answer.choices[0]);

  writeFileSync(
    'answer.wav',
    Buffer.from(answer.choices[0].message.audio.data, 'base64'),
    { encoding: 'utf-8' }
  );
};

main();

                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="openai/gpt-audio-mini",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

print(response.choices[0])

wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
    f.write(wav_bytes)
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
qwenmax-bg
图片
GPT Audio Mini

产品详情

🚀 隆重推出 GPT Audio Mini API:面向现代应用的实时语音合成

GPT Audio Mini 是 GPT Audio 系列中一款先进的轻量级变体,专为高效、低延迟的语音生成而设计。这款功能强大的模型非常适合实时交互式应用,例如高级语音助手、智能聊天机器人和语音识别软件,在这些应用中,即时响应和极低的资源消耗至关重要。它巧妙地平衡了高质量的音频输出和卓越的速度,使其成为边缘设备或计算能力受限的服务的理想部署方案。

⚙️ 技术规格

  • 型号: 轻量级自回归神经文本转语音(TTS)模型
  • 参数数量: 大约 1 亿个参数
  • 输入方式: 文本输入序列
  • 输出方式: 音频波形生成
  • 采样率: 24 kHz 标准输出质量
  • 延迟: 平均响应时间 100毫秒 在典型的边缘设备上
  • 支持的语言: 英语(主要),并计划提供多语言支持
  • 模型架构: 改进型基于Transformer的编码器-解码器
  • 硬件兼容性: 针对主流消费级设备的推理进行了 CPU 和 GPU 优化

📊 性能基准测试

  • 语音自然度: MOS(平均意见得分) 4.1/5 在用户测试中
  • 延迟比较: 速度提升30-40%。 比标准硬件上的全尺寸 GPT-Audio 更强大
  • 资源使用情况: 运营地点 内存消耗降低 50-60% 比 GPT-Audio 基础模型
  • 鲁棒性: 即使在高达 15 分贝的背景噪音下,也能保持语音清晰度。

✨ GPT Audio Mini 的主要功能

  • 低延迟语音合成: 优化的架构确保实时交互延迟最小。
  • 资源高效设计: 专为低功耗和减少内存占用而设计,非常适合资源受限的环境。
  • 多功能语音生成: 能够以各种风格和语境发出自然流畅的语音。
  • 紧凑型尺寸: 便于轻松集成到轻量级环境和移动平台中。
  • 在噪声环境下仍具有鲁棒性: 即使在具有挑战性的声学条件下,也能保持出色的清晰度和可懂度。
  • 可自定义语音输出: 允许进行微调,以符合特定的品牌风格或应用程序的特定要求。

💰 GPT Audio Mini API 定价

  • 输入: 10.50 美元/100 万个音频Tokens0.63美元/100万Tokens (文本输入)
  • 输出: 21.00 美元/100 万产量2.52美元/100万Tokens (音频输出)

💡 常见用例

  • 语音助手: 实现快速、自然的语音回复,延迟极低。
  • 客户支持机器人: 为呼叫中心和在线聊天平台提供清晰、引人入胜的语音合成功能。
  • 语音识别应用: 提供实时转录转语音反馈,以增强用户体验。
  • 互动式教育工具: 为辅导或语言学习程序生成动态语音输出。
  • 辅助工具: 为有视觉或运动障碍的用户提供辅助技术。
  • 物联网设备: 将语音功能集成到硬件资源有限的智能设备中。

💻 代码示例

🆚 与其他领先型号的比较

与 GPT-4o Mini TTS 对比: GPT-4o Mini TTS 通过声纹解耦技术增强了对语调和风格的控制,从而实现了更自然、更富有表现力的语音。 GPT Audio Mini 它经过专门优化,响应速度更快,内存占用更小,因此非常适合边缘计算。

与 OpenAI TTS-1 对比: GPT Audio Mini GPT Audio Mini 在语音生成速度方面显著优于 TTS-1,并保持了更高的整体语音自然度。TTS-1 的目标是快速合成语音,而 GPT Audio Mini 则兼顾了速度和更高的音频清晰度,使其更适合对语音合成要求较高的交互式语音助手应用。

对比 OpenAI Whisper: OpenAI Whisper 在多语言支持和转录准确性方面表现出色,而不是低延迟合成。 GPT Audio Mini 专为需要快速语音生成的交互式场景而设计,主要侧重于英语,并即将推出多语言功能。

对比 ElevenLabs Turbo: ElevenLabs Turbo 优先考虑速度,但完全依赖云端推理,缺乏离线支持。 GPT Audio Mini 在提供同等质量的同时,还能提供完整的设备隐私保护和卓越的跨平台便携性。

❓ 常见问题解答 (FAQ)

问:GPT Audio Mini 的主要用途是什么?

答:GPT Audio Mini 专为高效、低延迟的语音生成而设计,目标应用是实时交互式应用,例如语音助手和聊天机器人,在这些应用中,响应速度和资源节约至关重要。

问:GPT Audio Mini是如何实现低延迟的?

答:它采用优化的架构,最大限度地减少了处理延迟,在典型的边缘设备上,平均响应时间低于 100 毫秒。

问:GPT Audio Mini 是否适用于资源有限的设备?

答:是的,它的设计注重资源效率,运行内存消耗比基本 GPT-Audio 型号低 50-60%,使其成为边缘部署和物联网设备的理想选择。

问:GPT Audio Mini 可以根据特定的语音风格进行定制吗?

答:当然。它提供可定制的语音输出,允许进行微调,以匹配品牌声音或特定应用需求。

问:GPT Audio Mini 支持哪些语言?

答:目前主要支持英语,未来更新计划扩展多语言支持。

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用