



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'gpt-4o-audio-preview',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="gpt-4o-audio-preview",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

产品详情
✨ 隆重推出 GPT-4o 音频预览
这 GPT-4o 音频预览 它开启了人机无缝交互的新时代,以卓越的流畅性弥合了文本和语音之间的鸿沟。该技术专为实时语音对话和高级音频识别而设计,是众多应用场景中不可或缺的工具,从智能助手到高级辅助功能解决方案和直观的语音界面,无所不包。
🚀 主要功能
- 实时响应能力: 音频转录和语音生成响应时间平均仅为约 320 毫秒,可实现类似人类的对话速度。
- 全球语言支持: 支持 50 多种语言的理解和生成,针对非拉丁字母进行了优化的分词,服务于全球 97% 的语言使用者。
- 情商: 先进的情感分析技术结合精细的语音生成技术,能够实现更丰富、更具情感表现力的沟通。
- 增强可靠性: 显著降低的幻觉发生率和强大的安全机制,确保了稳定可靠的输出。
- 详细背景: 高达 128k 个标记的大型上下文窗口允许进行连贯的、长时间的互动,而不会丢失对话的流程。
💡 预期用途
- 🤖 语音助手: 打造自然、实时的对话体验。
- ♿ 辅助工具: 为视障用户及其他用户提供直观的音频交互体验。
- 📞 客户支持: 通过语音渠道提供快速、清晰、高效的支持。
🌐 语言能力
GPT-4o 支持超过 50种语言覆盖全球约 97% 的拉丁语使用者。其先进的分词技术专门针对非拉丁语系语言进行了优化,确保了广泛而包容的全球覆盖范围。
⚙️ 技术基础
建筑学
GPT-4o 的核心建立在强大的 Transformer架构它通过深度多模态集成得到增强,能够在一个统一的模型中无缝处理文本和音频两种模态。其音频处理流程集成了先进的语音活动检测(VAD)技术,从而能够真正实现实时响应。
训练数据
训练过程使用了广泛且多样化的数据集,涵盖了丰富的文本和音频内容。音频语料库包含丰富的多语言语音样本、各种音乐数据集、环境音以及精心制作的合成语音数据。
多样性与偏见考量
尽管 GPT-4o 集成了多项重要的安全措施来减轻偏差,但其在不同任务上的表现仍可能存在差异,这通常会受到指令细微差别或输入质量的影响。已知的偏差包括对高度复杂的任务(例如说话人验证或音调提取)的拒绝率不一致。
📊 精彩表演集锦
- ✅ 准确性: 在诸如大规模多任务语言理解(MMLU)等关键基准测试中取得了最先进的成果,得分令人瞩目。 88.7在一些高度专业化的任务中,例如音乐音高分类,性能可能会有所不同。
- ⚡ 速度: 平均音频响应时间为 320毫秒从而实现近乎即时且自然的对话流程。
- 🛡️ 鲁棒性: 该模型对多种语言和口音都展现出很强的泛化能力。然而,在处理一些非常具体或模糊的任务时,例如空间距离预测或音频时长估计,可能会遇到挑战。
🔌 如何开始
代码示例
可通过以下方式访问 GPT-4o 音频预览模型: AI/ML API平台 在标识符下 "gpt-4o-audio-preview"使用提供的工具和示例,将其集成到您的应用程序中。
API 文档
有关全面指南和详细集成说明,请参阅以下内容: API 文档 可在 AI/ML API 网站上获取。该资源提供了成功实现 GPT-4o 所需的一切。
🔒 伦理考量与许可
伦理准则
OpenAI 在 GPT-4o 的整个开发过程中都融入了严格的伦理考量,优先考虑安全性和强大的偏差缓解措施。该模型经过了广泛的评估,以确保其能够在各种应用中负责任且有益地部署。
许可
GPT-4o 提供 商业使用权使企业和开发者能够将这种先进模型无缝集成到他们自己的应用程序和服务中。
❓ 常见问题解答 (FAQ)
Q1:GPT-4o 音频预览的主要设计用途是什么?
A1:它旨在实现文本和语音之间的无缝、实时交互,因此非常适合语音助手、辅助工具和需要自然、类似人类语音对话的客户支持应用程序。
Q2:GPT-4o 的音频响应时间有多快?
A2:GPT-4o 的平均音频响应时间约为 320毫秒从而实现近乎即时的对话互动。
Q3:GPT-4o 支持哪些语言?
A3:它支持超过 50种语言覆盖全球约 97% 的英语使用者,并针对非拉丁文字进行了优化分词。
Q4:企业可以在其应用程序中使用 GPT-4o 吗?
A4:是的,GPT-4o 可用。 商业使用权允许企业将该模型集成到自己的应用程序中。



登录