



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'gpt-4o',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")
- API 操练场(Playground)

在集成之前,请在沙箱环境中测试所有 API 模型。
我们提供 300 多种模型供您集成到您的应用程序中。


产品详情
✨ GPT-4º:下一代多模态人工智能
GPT-4o由……开发 OpenAI这款产品代表着人工智能领域的重大飞跃,它无缝集成了文本、视觉以及即将推出的音频功能。这款旗舰机型将于2024年5月起分阶段发布,是GPT-4系列的最新迭代产品,专为实时推理和无与伦比的多功能性而设计。
💡 GPT-4o 的主要亮点
- 多模态精通: 统一的文本、视觉和即将推出的音频支持功能。
- 增强的函数调用和 JSON 模式: 改进了对开发者的集成。
- 高级视觉: 卓越的图像理解和解读能力。
- 全球语言支持: 非英语语言的性能显著提升。
- 经济高效且速度更快: 提高 API 使用速率限制并降低成本。
基本信息
型号名称: GPT-4o
开发者/创建者: OpenAI
发布日期: 从2024年5月开始分阶段发布
版本: GPT-4 系列的最新版本
型号: 多模态人工智能(文本、视觉,以及即将推出的音频支持)
预期用途
GPT-4o 专为希望将尖端人工智能集成到各种应用程序中的开发者和企业而设计。这些应用程序包括高级聊天机器人、复杂的内容生成和复杂的数据解读。
医学影像能力: 值得注意的是,GPT-4o 在解读 X 光片和 MRI 等放射影像方面达到了约 90% 的准确率。了解更多关于 GPT-4o 和其他人工智能模型在医疗保健领域的应用: 医疗保健人工智能应用 。
增强的语言支持: GPT-4o 改进了分词技术,为多种语言提供了强大的支持,使其在全球部署中具有很高的价值。
⚙️ 技术规格
建筑与培训
建筑学: 基于高效的 Transformer架构针对速度和无缝多模式集成进行了优化。
训练数据: 接受过广泛且多样化的互联网文本和结构化数据方面的训练。
知识门槛: 信息截至目前有效 2023年10月。
数据来源及规模: 它利用了一个庞大的基于互联网的数据集,但 OpenAI 没有透露该数据集的确切大小。
多样性与偏见: 经过在各种数据集上的严格训练,以最大限度地减少偏差并确保在各种人口统计群体中的稳健性。
🚀 性能基准测试
OpenAI 自行发布的测试结果表明,GPT-4o 在与其它领先的大型多模态模型 (LMM) 进行基准测试时,始终能取得显著更优或与之相当的成绩。这些模型包括之前的 GPT-4 版本、Anthropic 的 Claude 3 Opus、Google 的 Gemini 以及 Meta 的 Llama3。

关键绩效指标:
- 准确性: GPT-4o 在音频翻译方面树立了新的标杆,其性能优于 Meta 和 Google 的竞争模型,以及 OpenAI 自己的 Whisper-v3。
- 速度: 平均音频输入响应时间为 232 毫秒(最长 320 毫秒),与人类对话相当。此外,其 API 使用成本也降低了 50%。
- 鲁棒性: 展现出更强的能力来处理各种不同的输入,并在各种语言和模式下保持一致的表现。
想要更深入了解 GPT-4o 的创新功能,请参阅 OpenAI 的官方博客。 ChatGPT-4o:你可能错过的7个功能。
🛠️ 用途及应用
代码示例/SDK:
开发者可以使用现有的 SDK 将 GPT-4o 集成到他们的应用程序中。以下是一个调用聊天自动补全功能的示例:
import openai client = openai.OpenAI() response = client.chat.completions.create( model="gpt-4o", messages=[ {"role": "system", "content": "您是一位有用的助手。"}, {"role": "user", "content": "什么是 GPT-4o?"} ] ) print(response.choices[0].message.content) 🎯 GPT-4o 的主要应用案例
1. 使用 GPT-4o 进行 OCR
GPT-4o 在光学字符识别 (OCR) 任务中表现出色,能够准确地将图像转换为文本。它可以可靠地回答诸如“读取序列号”或“读取图片中的文字”之类的提示,因此在信息数字化方面非常有效。
2. 文件理解
该模型在从包含大量文本的图像中提取特定细节方面表现出色。例如,当面对一张收据并被问及“我支付了多少费用?”或一份包含“火腿餐厅的价格是多少?”的菜单时,GPT-4o 都能始终提供准确的答案。
3. 实时计算机视觉应用
凭借其更快的速度和集成的视听功能,GPT-4o 解锁了强大的实时计算机视觉应用。与实时视觉数据的交互能够实现快速情报收集和决策,这对于导航、翻译、引导辅助和复杂视觉信息分析等任务至关重要。
4. 客户支持转型
GPT-4o 通过人工智能驱动的聊天机器人,提供更精准、更贴心、更个性化的全天候客户服务,从而彻底革新了客户服务。它从根本上改变了企业与客户的互动方式,提升了客户满意度和效率。
⚖️ 许可信息
- 可提供商业授权。具体信息可直接通过以下方式获取: OpenAI。
❓ 常见问题解答 (FAQ)
问题1:GPT-4o的主要功能是什么?
A1:GPT-4o 是一个多模态人工智能模型,它集成了文本、视觉和即将推出的音频支持,能够跨这些模态进行实时推理。
Q2:GPT-4o 在速度和成本方面与之前的型号相比如何?
A2:GPT-4o 的平均音频输入反应时间为 232 毫秒,与人类的反应速度相当。与之前的版本相比,它的 API 使用成本降低了 50%,同时在英文文本和代码的处理上,性能与 GPT-4 Turbo 不相上下。
Q3:GPT-4o 可以用于医疗应用吗?
A3:是的,GPT-4o 在解读 X 射线和 MRI 等放射学图像方面表现出很高的准确率(约 90%),使其成为医学成像应用的强大工具。
Q4:GPT-4o 的主要企业应用有哪些?
A4:GPT-4o 非常适合客户支持(聊天机器人)、文档理解、实时计算机视觉(例如导航、引导协助)和高级内容生成。
Q5:GPT-40 的知识截止日期是什么时候?
A5:GPT-4o 的知识更新至 2023 年 10 月。



登录