在

出去

聊天

gpt-image-1

OpenAI 的 GPT-Image-1 是一个 GPT-4 级多模态转换器，它通过生产 API 将自然语言提示（和参考图像）转换为高保真、排版准确的图片和就地编辑，并提供企业级安全性。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v1/images/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      prompt: 'A jellyfish in the ocean',
      model: 'openai/gpt-image-1',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main();

                                        import requests


def main():
    response = requests.post(
        "https://api.ai.cc/v1/images/generations",
        headers={
            "Authorization": "Bearer ",
            "Content-Type": "application/json",
        },
        json={
            "prompt": "A jellyfish in the ocean",
            "model": "openai/gpt-image-1",
        },
    )

    response.raise_for_status()
    data = response.json()

    print("Generation:", data)


if __name__ == "__main__":
    main()

Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

gpt-image-1

产品详情

✨ GPT-Image-1：高保真AI图像生成与编辑

OpenAI 的 GPT-Image-1 是一个突破性的原生多模态生成式转换器，专为……而设计。 高保真文本转图像的创建和编辑这款高级模型在 GPT-4 解码器的基础上，加入了专门的视觉词元嵌入和跨模态注意力机制。其独特的架构使其能够精确地遵循复杂的设计指令，利用丰富的世界知识，并精确地渲染图像上的文本，从而成为满足各种视觉内容需求的强大工具。

🚀 技术规格

性能基准

OpenAI Image 1 经过精心优化，可实现卓越的图像生成和视觉内容创作：

• 建筑学：集成了 GPT-4 衍生解码器、视觉适配器和额外的遮罩编辑头，以实现高级图像修复功能。
• 原生输出尺寸：支持 1024x1024 像素正方形分辨率，并提供宽屏 (1024x1536 像素) 和竖屏 (1536x1024 像素) 版本。同时支持按需 4K 升频。

API定价概览

• 文本标记输入： 5.25美元
• 图像标记输入： 10.5美元
• 低质量图像生成价格：
- 1024x1024：0.0116 美元
- 1024x1536：0.017美元
- 1536x1024：0.017美元
• 中等质量图像生成价格：
- 1024x1024：0.044美元
- 1024x1536：0.066美元
- 1536x1024：0.066美元
• 高质量、低成本的图像生成：
- 1024x1024：0.175美元
- 1024x1536：0.263美元
- 1536x1024：0.263美元

绩效指标与成就

⭐ GIE-Bench（2025）： GPT-Image-1 实现了 最高功能正确性得分 在包含 1000 个任务的基于实际图像编辑的基准测试中，该模型在所有测试模型中表现最佳，同时还能很好地保留图像内容。详情请参阅原始研究： GIE-Bench（2025）。
✍️ 严格的文本渲染压力测试：在 ChatGPT 内部以“GPT-4o images”的名称进行推广，GPT-Image-1 是仅有的两种能够在多行文本（最多约 800 个字符）上保持低错误率的专有模型之一，其性能显著优于开源扩散器。查看完整报告：严格的文本渲染压力测试。
📈企业部署：包括 Adobe Firefly、Figma Design、Canva 和 Wix 在内的早期采用者报告称，在集成 GPT-Image-1 后，提示到素材的加载速度提升了两位数。了解更多相关信息： OpenAI ChatGPT 图像生成模型：Adobe、Figma。

💡 OpenAI Image 1 的主要功能

OpenAI Image 1 能够始终如一地提供精确的视觉输出，使其成为即使是最复杂的创意工作流程的理想选择：

🎨 多风格世代：从单一终端即可生成照片级写实图像、插图、动画、矢量图、3D渲染图和数据可视化作品。
✍️ 精准的排版：即使使用小字体，也能创建清晰易读的海报、用户界面模型和多行标签。
🌍世界知识综合：利用 GPT-4o 系列的语言基础，准确地将品牌商品、真人或事实图表放置在图像中。
🔒 企业级安全：具有溯源水印、可调式审核以及不涉及客户数据培训的承诺，确保符合法律和品牌安全要求。

以下是使用高质量参数生成的图像示例，提示为：“生成一张刺猬拿着一张纸的动漫图像，纸上写着：立即使用 AI/ML API 试用 GPT-Image-1”。

GPT-Image-1 示例生成

🎯 最佳使用场景

• 创意与营销：社交媒体广告、产品主图、产品生活方式渲染图。
• 设计原型制作：快速概念艺术、主题探索、在 Figma 或 Adobe 等工具中进行画布上编辑。
• 电子商务：去除背景、配色方案变化、产品目录场景布置。
• 教育与出版：图表、闪卡、带有嵌入式文本的工作表图形。
• 游戏/电影前期制作：故事板、环境研究、快速素材变体。
• 企业报告：根据分析文本自动生成信息图表和数据可视化图表。

🛠️ 代码示例和参数

文本转图像代码示例

文本转图像参数

• 提示 [str]：文字提示，详细说明图像的内容、风格或构图。
• n [1-10]：要生成的图像数量。
• output_compression [int]: 生成图像的压缩级别（0-100%）。
• 尺寸 [1024x1024, 1024x1536, 1536x1024]: 所需生成图像的大小。
• 背景色[透明、不透明、自动]：设置背景透明度。“自动”由模型自动决定。“透明”需要“png”或“webp”输出格式。
• 适中 [低，自动]：控制内容审核级别。
• 输出格式 [png, jpeg, webp]: 生成图像的格式。
• 质量 [低、中、高]：生成图像的质量设置。
• response_format [url, b64_json]: 返回生成图像的格式。

图像编辑代码示例

图像编辑参数

• 提示 [str]：文字提示，描述编辑后图像所需的内容、风格或构图。
• 图像 [文件 | 文件列表]：要编辑的图片。支持小于 50MB 的 png、webp、jpg 文件（最多 16 张图片）。
• 掩码[文件]：另附一个PNG文件（小于4MB，尺寸与原图相同），其中透明区域表示可编辑区域。如果提供了多张原图，则此说明仅适用于第一张原图。
• n [1-10]：要生成的图像数量。
• output_compression [int]: 生成图像的压缩级别（0-100%）。
• 尺寸 [1024x1024, 1024x1536, 1536x1024]: 所需生成图像的大小。
• 背景色[透明、不透明、自动]：设置背景透明度。“自动”由模型自动决定。“透明”需要“png”或“webp”输出格式。
• 适中 [低，自动]：控制内容审核级别。
• 输出格式 [png, jpeg, webp]: 生成图像的格式。
• 质量 [低、中、高]：图像质量设置。
• response_format [url, b64_json]: 返回生成图像的格式。

📊 与其他领先型号的比较

• 对阵 DALL·E 3： GPT-Image-1 提供 更清晰的字体和更高的提示遵守率不过，DALL·E 3 在单次拍摄 512 像素草稿时速度仍然略快一些。
• 与稳定扩散 XL 1.0 相比： GPT-Image-1 显示 在指令遵循和文本渲染方面取得显著进步SDXL 作为完全开源的本地或离线部署选项，仍然具有优势。
• 与 Midjourney v7 对比：和 确定性种子和内置护栏GPT-Image-1 在生产流程中更具优势。Midjourney 仍然提供更广泛的社区驱动型样式库。

🔗 API 集成

GPT-Image-1 可通过 AI/ML API 轻松访问。完整的集成文档请参见此处。这里。

❓ 常见问题解答 (FAQ)

问：GPT-Image-1 在图像生成方面有哪些独特之处？
答：GPT-Image-1 是一个原生多模态生成式转换器，利用了 GPT-4 级别的解码器。它的优势在于能够遵循复杂的设计指令，综合世界知识，并准确地在图像上渲染文本，为高保真文本到图像的创建和编辑树立了新的标准。
问：GPT-Image-1 支持哪些输出尺寸？
答：它原生支持 1024x1024 像素的正方形图像，以及宽屏 (1024x1536 像素) 和竖屏 (1536x1024 像素) 版本。用户还可以按需申请 4K 升频。
问：与其他模型相比，GPT-Image-1 在文本渲染方面表现如何？
答：GPT-Image-1（在 ChatGPT 中以“GPT-4o images”的名称销售）在精准排版方面表现出色。它是少数几个能够对多达约 800 个字符的多行文本保持低错误率的专有模型之一，其性能显著优于许多开源替代方案。
问：GPT-Image-1 在企业应用中的主要安全特性有哪些？
答：对于企业用户，GPT-Image-1 包含强大的安全功能，例如来源水印、可调内容审核以及严格的客户数据不培训政策，从而确保品牌和法律合规性。
问：在哪里可以找到 GPT-Image-1 的 API 文档？
答：集成 GPT-Image-1 的完整 API 文档可在 AI/ML API 文档门户上找到。请参阅。官方文件请参阅详细说明。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

一个 API
300多个人工智能模型

节省20%的费用