



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'gpt-4o-mini-audio-preview',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="gpt-4o-mini-audio-preview",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

产品详情
✨ 隆重推出 GPT-4o Mini Audio:高效且功能全面的语音人工智能
专为寻求快速、自然、高效的语音应用程序的开发人员而设计, GPT-4o 迷你音频 提供强大的语音输入和输出功能。这款经济高效的模型显著降低了构建语音驱动应用程序的门槛,运行成本仅为 成本的25%。 完整的 GPT-4o 音频模型,使先进的音频 AI 能够广泛应用。
信息来源: 原始 GPT-4o 迷你音频描述
💡 GPT-4o 迷你音频的主要功能
- 💬 实时语音交互: 无缝处理并生成动态对话中的语音和文本回复。
- 📦 轻量级部署: 针对资源受限环境进行了优化,确保了广泛的兼容性。
- 🌐 多语言音频支持: 先进的语音识别技术 50多种语言。
- ⚡ 快速响应时间: 专为低延迟交互而设计,这对实时应用至关重要。
- 💰 成本效益: 价格非常实惠,运行成本仅为 成本的25%。 GPT-4o 音频型号。
🎯 预期使用场景
- 📱 移动设备上的语音助手: 为低资源智能代理提供强大支持,打造流畅的移动体验。
- 🧑🦯 辅助功能: 通过先进的语音控制和反馈系统,提升用户体验。
- 💡 嵌入式物联网工具: 将先进的音频人工智能技术集成到智能设备和物联网生态系统中。
⚙️ 技术深度解析
建筑学
GPT-4o Mini Audio 源自完整的 GPT-4o 模型,并通过复杂的模型提炼技术进行改进,从而保持了强大的性能。 基于Transformer的架构它专门针对音频任务进行了优化,并融合了先进的技术。 语音活动检测(VAD)层 用于精确的音频分割和处理。
训练数据
该模型利用了庞大且多样化的训练数据集,其中包括:
- 综合性多语种语音语料库。
- 合成语音数据涵盖各种口音和语调,以增强稳健性。
- 大量公开的有声读物、播客和对话数据集。
该训练数据包含数百小时的高质量音频录音和数十亿个文本标记,确保了强大的多模态性能。
知识门槛
该模型的知识库更新至…… 2023年10月它针对静态数据集进行了优化,不具备实时网络搜索功能。
📈 性能基准测试
准确性
GPT-4o Mini Audio 在各项关键指标上均展现出优异的性能:
- 语音转文字转录: 达到低 词错误率(WER)为 6.5%。
- 文本转音频合成: 提供高保真度和自然音调的评分,超越预期 92%。
速度
它能高效处理异步音频任务,平均延迟为 每秒 420 毫秒的输入音频因此,它非常适合近实时应用。
鲁棒性
该模型能够有效处理各种口音、方言和嘈杂环境。然而,当遇到高度专业化的术语或资源匮乏的语言时,其准确率可能会降低。
🚀 集成与使用
代码示例
GPT-4o Mini Audio 现已上市 AI/ML API平台 在标识符下 "gpt-4o-mini-audio"。
API 文档
有关完整指南和集成详情,请参阅详细信息。 API 文档 可在AI/ML API网站上获取。
⚖️ 伦理考量与许可
伦理准则
OpenAI 已认真地将其纳入 伦理考量 在模型开发的整个过程中,我们始终高度重视安全性和偏差缓解。该模型整合了 OpenAI的偏见缓解框架但需要注意的是,它仍然可能反映其训练数据源中固有的偏见,特别是对于代表性不足的语言或口音。
许可
GPT-4o 迷你音频产品现已上市。 商业使用权使企业和开发人员能够将该模型无缝集成到他们的应用程序和服务中。
❓ 常见问题解答 (FAQ)
问:GPT-4o Mini Audio是什么?
答:GPT-4o Mini Audio 是 GPT-4o Audio 的一个高性价比版本,专为快速、低资源占用的语音应用而设计,具备实时音频输入和输出功能。它的价格仅为完整版 GPT-4o Audio 的 25%。
问:GPT-4o Mini Audio 的价格如何?
答:它的运行成本要低得多,具体来说,只有完整版 GPT-4o 音频模型价格的 25%,这使得预算有限的项目也能更容易地使用高级音频 AI。
问:该模型的主要应用场景是什么?
答:由于其轻巧高效的特性,非常适合移动语音助手、辅助功能(语音控制)以及物联网设备中的嵌入式人工智能。
问:它支持多种语言吗?
答:是的,GPT-4o Mini Audio 具有强大的多语言音频支持,可提供 50 多种语言的语音识别。
问:GPT-4o Mini Audio 的知识门槛是多少?
答:其知识库更新至 2023 年 10 月。它针对静态数据集进行了优化,不具备实时网络搜索功能。



登录