128K

在

出去

聊天

禁用

GPT Audio Mini

它在保持效率的同时，提供稳定、自然的语音输出，使资源有限的设备也能实现语音交互。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const answer = await api.chat.completions.create({
    model: 'openai/gpt-audio-mini',
    modalities: ['text', 'audio'],
    audio: { voice: 'alloy', format: 'wav' },
    messages: [
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  console.log(answer.choices[0]);

  writeFileSync(
    'answer.wav',
    Buffer.from(answer.choices[0].message.audio.data, 'base64'),
    { encoding: 'utf-8' }
  );
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="openai/gpt-audio-mini",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

print(response.choices[0])

wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
    f.write(wav_bytes)

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

GPT Audio Mini

产品详情

🚀 隆重推出 GPT Audio Mini API：面向现代应用的实时语音合成

这 GPT Audio Mini 是 GPT Audio 系列中一款先进的轻量级变体，专为高效、低延迟的语音生成而设计。这款功能强大的模型非常适合实时交互式应用，例如高级语音助手、智能聊天机器人和语音识别软件，在这些应用中，即时响应和极低的资源消耗至关重要。它巧妙地平衡了高质量的音频输出和卓越的速度，使其成为边缘设备或计算能力受限的服务的理想部署方案。

⚙️ 技术规格

型号： 轻量级自回归神经文本转语音（TTS）模型
参数数量： 大约 1 亿个参数
输入方式： 文本输入序列
输出方式： 音频波形生成
采样率： 24 kHz 标准输出质量
延迟： 平均响应时间 100毫秒 在典型的边缘设备上
支持的语言： 英语（主要），并计划提供多语言支持
模型架构： 改进型基于Transformer的编码器-解码器
硬件兼容性： 针对主流消费级设备的推理进行了 CPU 和 GPU 优化

📊 性能基准测试

语音自然度： MOS（平均意见得分）约为 4.1/5 在用户测试中
延迟比较： 速度提升30-40%。 比标准硬件上的全尺寸 GPT-Audio 更强大
资源使用情况： 运营地点 内存消耗降低 50-60% 比 GPT-Audio 基础模型
鲁棒性： 即使在高达 15 分贝的背景噪音下，也能保持语音清晰度。

✨ GPT Audio Mini 的主要功能

低延迟语音合成： 优化的架构确保实时交互延迟最小。
资源高效设计： 专为低功耗和减少内存占用而设计，非常适合资源受限的环境。
多功能语音生成： 能够以各种风格和语境发出自然流畅的语音。
紧凑型尺寸： 便于轻松集成到轻量级环境和移动平台中。
在噪声环境下依然稳健： 即使在具有挑战性的声学条件下，也能保持出色的清晰度和可懂度。
可自定义语音输出： 允许进行微调，以符合特定的品牌风格或应用程序的特定要求。

💰 GPT Audio Mini API 定价

输入： 10.50 美元/100 万个音频Tokens； 0.63美元/100万Tokens （文本输入）
输出： 21.00 美元/100 万产量； 2.52美元/100万Tokens （音频输出）

💡 常见用例

语音助手： 实现快速、自然的语音回复，延迟极低。
客户支持机器人： 为呼叫中心和在线聊天平台提供清晰、引人入胜的语音合成功能。
语音识别应用： 提供实时转录转语音反馈，以增强用户体验。
互动式教育工具： 为辅导或语言学习程序生成动态语音输出。
辅助工具： 为有视觉或运动障碍的用户提供辅助技术。
物联网设备： 将语音功能集成到硬件资源有限的智能设备中。

💻 代码示例

🆚 与其他领先型号的比较

与 GPT-4o Mini TTS 对比： GPT-4o Mini TTS 通过声纹解耦技术增强了对语调和风格的控制，从而实现了更自然、更富有表现力的语音。 GPT Audio Mini 它经过专门优化，响应速度更快，内存占用更小，因此非常适合边缘计算。

与 OpenAI TTS-1 对比： GPT Audio Mini GPT Audio Mini 在语音生成速度方面显著优于 TTS-1，并保持了更高的整体语音自然度。TTS-1 的目标是快速合成语音，而 GPT Audio Mini 则兼顾了速度和更高的音频清晰度，使其更适合对语音合成要求较高的交互式语音助手应用。

对比 OpenAI Whisper： OpenAI Whisper 在多语言支持和转录准确性方面表现出色，而不是低延迟合成。 GPT Audio Mini 专为需要快速语音生成的交互式场景而设计，主要侧重于英语，并即将推出多语言功能。

对比 ElevenLabs Turbo： ElevenLabs Turbo 优先考虑速度，但完全依赖云端推理，缺乏离线支持。 GPT Audio Mini 在提供同等质量的同时，还能提供完整的设备隐私保护和卓越的跨平台便携性。

❓ 常见问题解答 (FAQ)

问：GPT Audio Mini 的主要用途是什么？

答：GPT Audio Mini 专为高效、低延迟的语音生成而设计，目标应用是实时交互式应用，例如语音助手和聊天机器人，在这些应用中，响应速度和资源节约至关重要。

问：GPT Audio Mini是如何实现低延迟的？

答：它采用优化的架构，最大限度地减少了处理延迟，在典型的边缘设备上，平均响应时间低于 100 毫秒。

问：GPT Audio Mini 是否适用于资源有限的设备？

答：是的，它的设计注重资源效率，运行内存消耗比基本 GPT-Audio 型号低 50-60%，使其成为边缘部署和物联网设备的理想选择。

问：GPT Audio Mini 可以根据特定的语音风格进行定制吗？

答：当然。它提供可定制的语音输出，允许进行微调，以匹配品牌声音或特定应用需求。

问：GPT Audio Mini 支持哪些语言？

答：目前主要支持英语，未来更新计划扩展多语言支持。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用