128K

在

出去

聊天

积极的

GPT 4o 2024-05-13

探索 GPT-4o-2024-05-13 API，这是 OpenAI 专为实时应用而设计的用于文本、图像和音频处理的高级多模态模型。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'gpt-4o-2024-05-13',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="gpt-4o-2024-05-13",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

GPT 4o 2024-05-13

产品详情

隆重推出 GPT-4o-2024-05-13：OpenAI 的高级多模态模型

GPT-4o-2024-05-13这是基础版本 GPT-4o系列是 OpenAI 的尖端技术多模态语言模型已发布 2024年5月13日这种创新模型旨在无缝处理和生成跨平台内容。文本、图像和音频它的设计优先考虑实时交互并且能够熟练地处理各种数据类型的复杂多步骤任务，使其在动态应用中具有极强的通用性。

GPT-4o：多模态人工智能交互领域的突破。

技术规格和核心功能

GPT-4o-2024-05-13 构建于一个强大的平台之上。变压器架构具有原生上下文窗口 128,000 个Tokens 以及产生高达 16,384 个输出令牌根据请求，该模型的训练涉及多种多模态数据集，涵盖跨多个领域的文本、图像和音频，从而确保其知识全面且具有较强的适应性。该模型的知识截止值设定为： 2023年10月。

⭐GPT-4o 的主要特点

多模态处理：原生支持文本、图像和音频输入，可为各种任务生成基于文本的输出。
实时交互：反应速度接近人类（大约） 320毫秒），非常适合对话式人工智能、客户支持和交互式助手。
多语言支持：高效处理超过 50种语言达到全球97%的演讲者针对非拉丁字母进行了优化标记使用。
加深理解：能够识别语音语调和情绪，显著提升对话的细微差别和用户体验。
定制化：通过上传专有数据集进行特定领域的调整，提供企业微调功能，这对商业应用尤其有利。

🎯预期用途

交互式人工智能助手和聊天机器人需要多模态输入和快速、精确的响应。
整合文本、图像和音频数据的客户支持系统，可提供更优质的服务。
为多媒体项目生成内容，将文本与视觉和音频元素无缝融合。
医学影像分析，显示大约准确率90% 用于解读放射影像，例如 X 光片和 MRI 影像。
提供丰富、响应迅速且多语言互动体验的教育工具。

了解更多关于此模型及其他模型及其在医疗保健领域的应用这里。

性能基准和竞争优势

GPT-4o-2024-05-13 在关键基准测试中表现出色：

MMLU 分数： 88.7（5发）表明具备扎实的知识水平。
人类评估评分： 91.0（0-shot）这体现了其先进的编程能力。
MMMU评分（多模态）： 69.1验证了其对音频和视频输入的有效处理能力。
文本生成速度：大约每秒 72 到 109 个令牌。
平均反应延迟：大约 320毫秒比 GPT-4 Turbo 等前代产品快得多。

此外，GPT-4o 在成本效益方面具有显著优势，大约为成本效益提高 50%。与 GPT-4 Turbo 相比，输入和输出标记方面有所改进。

📊与其他模型的比较（重点：GPT-4o 与 GPT-4 Turbo）

笔记：由于 GPT-4o 目前指向此版本 (GPT-4o-2024-05-13)，因此比较主要突出 GPT-4o 的功能。

感谢人工分析

与前代产品 GPT-4 Turbo 相比，GPT-4o-2024-05-13 具有显著的改进：

更低的延迟大约 Tokens生成吞吐量提高了五倍（每秒 109 个令牌，而每秒 20 个令牌）。
提高准确性在多语言和多模态任务中。
一个更大的上下文窗口（128K Tokens），从而能够更广泛地理解文档和对话。
更多的成本效益高的Tokens定价从而将运营费用降低约 50%。

整合与负责任的人工智能部署

💻使用情况和 API 访问

GPT-4o-2024-05-13 模型很容易获取。 AI/ML API平台在标识符下 "gpt-4o-2024-05-13"。

代码示例：

API文档：

文中提供了实现无缝集成的全面指南。详细 API 文档可在 AI/ML API 网站上获取。

🛡️道德准则和许可

OpenAI 坚持严格的安全和偏见缓解协议对于 GPT-4o，确保模型的负责任和公平使用。该模型由以下机构提供：商业使用权促进企业在其各种应用程序中无缝采用。

❓常见问题解答 (FAQ)

1. GPT-4o-2024-05-13 是什么？

GPT-4o-2024-05-13 是 OpenAI 的 GPT-4o 系列的初始版本，这是一个最先进的多模态语言模型，于 2024 年 5 月 13 日发布。它可以处理和生成文本、图像和音频，专注于实时交互。

2. GPT-4o 与 GPT-4 Turbo 相比如何？

GPT-4o 具有更低的延迟、大约五倍更高的 token 生成吞吐量（109 对 20 token/秒）、更高的多模态任务准确性、更大的上下文窗口（128K tokens），并且成本效益提高了约 50%。

3. GPT-4o-2024-05-13 的主要特点是什么？

它的主要功能包括原生多模态处理（文本、图像、音频）、实时交互功能（约 320 毫秒响应时间）、支持 50 多种语言、增强对音频音调/情感的理解以及企业微调选项。

4. GPT-4o 可以用于医学影像分析吗？

是的，GPT-4o 在医学影像分析方面表现出色，在解读 X 光片和 MRI 等放射影像方面达到了约 90% 的准确率。

5. GPT-4o-2024-05-13 的知识截止值是多少？

此版本的 GPT-4o 的知识截止时间为 2023 年 10 月。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

一个 API
300多个人工智能模型

节省20%的费用