Fora

Bater papo

gpt-imagem-1

O GPT-Image-1 da OpenAI é um transformador multimodal da classe GPT-4 que converte instruções em linguagem natural (e imagens de referência) em imagens de alta fidelidade e tipografia precisa, permitindo edições in-loco com segurança de nível empresarial por meio de uma API de produção.

Tokens de $1 grátis para novos membros

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v1/images/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      prompt: 'A jellyfish in the ocean',
      model: 'openai/gpt-image-1',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main();

                                        import requests


def main():
    response = requests.post(
        "https://api.ai.cc/v1/images/generations",
        headers={
            "Authorization": "Bearer ",
            "Content-Type": "application/json",
        },
        json={
            "prompt": "A jellyfish in the ocean",
            "model": "openai/gpt-image-1",
        },
    )

    response.raise_for_status()
    data = response.json()

    print("Generation:", data)


if __name__ == "__main__":
    main()

Docs

Uma API com mais de 300 modelos de IA

Economize 20% nos custos e ganhe tokens grátis de $1.

Obter chave de API Explorar modelos

gpt-imagem-1

Detalhes do produto

✨ GPT-Image-1: Geração e edição de imagens com IA de alta fidelidade

da OpenAI GPT-Imagem-1 é um transformador generativo multimodal nativo inovador projetado para Criação e edição de texto para imagem de alta fidelidadeEste modelo avançado estende um decodificador da classe GPT-4 com incorporações de tokens visuais especializadas e atenção multimodal. Essa arquitetura exclusiva permite que ele siga com precisão instruções de design complexas, aproveite um amplo conhecimento do mundo e renderize texto sobre a imagem com exatidão, tornando-o uma ferramenta poderosa para uma ampla gama de necessidades de conteúdo visual.

🚀 Especificações Técnicas

Indicadores de desempenho

O OpenAI Image 1 foi meticulosamente otimizado para geração de imagens de alta qualidade e criação de conteúdo visual:

• Arquitetura: Decodificador derivado do GPT-4 integrado com adaptadores de visão e uma cabeça adicional de edição mascarada para recursos avançados de preenchimento de lacunas.
• Tamanhos de saída nativos: Suporta formato quadrado de 1024x1024 px, com variantes widescreen (1024x1536 px) e retrato (1536x1024 px). O upscaling para 4K sob demanda também está disponível.

Visão geral dos preços da API

• Entrada de Tokens de Texto: $ 5,25
• Entrada de Tokens de Imagem: $ 10,5
• Baixo custo por geração de imagem de baixa qualidade:
- 1024x1024: $0,0116
- 1024x1536: $0,017
- 1536x1024: $0,017
• Preço médio por geração de imagem:
- 1024x1024: $0,044
- 1024x1536: $0,066
- 1536x1024: $0,066
• Alta qualidade e preço por imagem gerada:
- 1024x1024: $0,175
- 1024x1536: $0,263
- 1536x1024: $0,263

Métricas de desempenho e conquistas

⭐ GIE-Bench (2025): GPT-Image-1 alcançou o pontuações mais altas de correção funcional Entre todos os modelos testados em um benchmark de edição de imagens com 1.000 tarefas, o modelo se destacou, mantendo também uma forte preservação do conteúdo. Para mais detalhes, consulte a pesquisa original: GIE-Bench (2025).
✍️ Teste de estresse rigoroso para renderização de texto: Comercializado no ChatGPT como "imagens GPT-4o", o GPT-Image-1 é um dos dois únicos modelos proprietários que mantêm baixas taxas de erro em textos com várias linhas de até aproximadamente 800 caracteres, superando significativamente os difusores de código aberto. Veja o relatório completo: teste de estresse de renderização de texto STRICT.
📈 Implantações empresariais: Usuários pioneiros, incluindo Adobe Firefly, Figma Design, Canva e Wix, relataram "aumentos de velocidade de dois dígitos no tempo de resposta (do prompt ao recurso)" após a integração do GPT-Image-1. Leia mais sobre o impacto: Modelo de geração de imagens OpenAI ChatGPT: Adobe, Figma.

💡 Principais funcionalidades da OpenAI Imagem 1

O OpenAI Image 1 oferece resultados visuais precisos de forma consistente, tornando-o ideal até mesmo para os fluxos de trabalho criativos mais complexos:

🎨 Geração Multiestilo: Gere imagens fotorrealistas, ilustrações, animações, arte vetorial, renderizações 3D e visualizações de dados, tudo a partir de um único ponto de acesso.
✍️ Tipografia precisa: Crie pôsteres, protótipos de interface do usuário e rótulos com várias linhas com texto limpo e legível, mesmo usando fontes pequenas.
🌍 Síntese do Conhecimento Mundial: Aproveita a capacidade de reconhecimento de linguagem da família GPT-4o para posicionar com precisão itens de marca, pessoas reais ou diagramas factuais em imagens.
🔒 Segurança de nível empresarial: Oferece marca d'água de procedência, moderação ajustável e o compromisso de não exigir treinamento sobre dados do cliente, garantindo o alinhamento com os requisitos legais e de segurança da marca.

Exemplo de uma imagem gerada com parâmetros de alta qualidade, criada com a seguinte instrução: “Gere uma imagem de anime de um ouriço segurando um papel que diz: Experimente o GPT-Image-1 hoje com a API de IA/ML.”

Geração de exemplos de imagens GPT-1

🎯 Casos de uso ideais

• Criação e Marketing: Anúncios em redes sociais, fotos de destaque, imagens ilustrativas do produto em uso.
• Prototipagem de Design: Criação rápida de artes conceituais, exploração de temas e edições diretas na tela usando ferramentas como Figma ou Adobe.
• Comércio eletrônico: Remoção de fundo, variações de cores, cenários encenados para catálogos de produtos.
• Educação e Publicação: Diagramas, cartões de memorização, gráficos de planilhas com texto incorporado.
• Pré-produção de jogos/filmes: Storyboards, estudos de ambiente, variações rápidas de elementos gráficos.
• Relatórios Empresariais: Infográficos e visualizações de dados gerados automaticamente a partir de textos analíticos.

🛠️ Exemplos de código e parâmetros

Exemplo de código de conversão de texto em imagem

Parâmetros de conversão de texto em imagem

• prompt [str]: A descrição textual detalha o conteúdo, o estilo ou a composição da imagem.
• n [1-10]: Número de imagens a serem geradas.
• compressão_de_saída [int]: Nível de compressão (0-100%) para imagens geradas.
• Tamanho [1024x1024, 1024x1536, 1536x1024]: Tamanho desejado da imagem gerada.
• fundo [transparente, opaco, automático]: Define a transparência do fundo. 'Automático' permite que o modelo decida. 'Transparente' requer o formato de saída 'png' ou 'webp'.
• moderação [baixa, automática]: Controla o nível de moderação de conteúdo.
• formato_de_saída [png, jpeg, webp]: Formato da imagem gerada.
• Qualidade [baixa, média, alta]: Configuração de qualidade para a imagem gerada.
• formato_de_resposta [url, b64_json]: Formato para retornar as imagens geradas.

Exemplo de código para edição de imagens

Parâmetros de edição de imagem

• prompt [str]: Texto descrevendo o conteúdo, estilo ou composição desejados para a imagem editada.
• imagem [arquivo | lista de arquivos]: As imagens a serem editadas. Suporta arquivos png, webp e jpg com menos de 50 MB (até 16 imagens).
• máscara [arquivo]: Um arquivo PNG adicional (com menos de 4 MB e as mesmas dimensões da imagem) onde as áreas transparentes indicam regiões editáveis. Aplica-se à primeira imagem, caso sejam fornecidas várias.
• n [1-10]: Número de imagens a serem geradas.
• compressão_de_saída [int]: Nível de compressão (0-100%) para imagens geradas.
• Tamanho [1024x1024, 1024x1536, 1536x1024]: Tamanho desejado da imagem gerada.
• fundo [transparente, opaco, automático]: Define a transparência do fundo. 'Automático' permite que o modelo decida. 'Transparente' requer o formato de saída 'png' ou 'webp'.
• moderação [baixa, automática]: Controla o nível de moderação de conteúdo.
• formato_de_saída [png, jpeg, webp]: Formato da imagem gerada.
• Qualidade [baixa, média, alta]: Configuração de qualidade da imagem.
• formato_de_resposta [url, b64_json]: Formato para retornar as imagens geradas.

📊 Comparação com outros modelos líderes

• Versus DALL·E 3: GPT-Image-1 oferece Tipografia mais nítida e maior cumprimento dos prazos.No entanto, o DALL·E 3 continua sendo ligeiramente mais rápido para drafts de 512 px de um único disparo.
• Comparado com Stable Diffusion XL 1.0: GPT-Imagem-1 mostra Grandes avanços no seguimento de instruções e na renderização de texto.O SDXL mantém sua vantagem como uma opção totalmente de código aberto para implantação local ou offline.
• Versus Midjourney v7: Com sementes determinísticas e proteções integradasO GPT-Image-1 ganha vantagem para fluxos de trabalho de produção. O Midjourney ainda oferece uma paleta de estilos mais ampla, impulsionada pela comunidade.

🔗 Integração de API

O GPT-Image-1 está facilmente acessível através da API de IA/ML. A documentação completa para integração pode ser encontrada aqui. aqui.

❓ Perguntas frequentes (FAQ)

P: O que torna o GPT-Image-1 único para geração de imagens?
A: O GPT-Image-1 é um transformador generativo multimodal nativo que utiliza um decodificador da classe GPT-4. Sua força reside na capacidade de seguir instruções de design complexas, sintetizar conhecimento do mundo e renderizar texto na imagem com precisão, estabelecendo um novo padrão para a criação e edição de texto em imagem de alta fidelidade.
P: Quais são os tamanhos de saída suportados pelo GPT-Image-1?
A: Ele suporta nativamente imagens quadradas de 1024x1024 px, além de variantes widescreen (1024x1536 px) e retrato (1536x1024 px). Os usuários também podem solicitar o aumento de escala para 4K sob demanda.
P: Como o GPT-Image-1 lida com a renderização de texto em comparação com outros modelos?
A: O GPT-Image-1 (comercializado como "imagens GPT-4o" no ChatGPT) se destaca na tipografia precisa. É um dos poucos modelos proprietários que mantém baixas taxas de erro em textos com várias linhas de até aproximadamente 800 caracteres, superando significativamente muitas alternativas de código aberto.
P: Quais são os principais recursos de segurança do GPT-Image-1 para uso empresarial?
A: Para usuários corporativos, o GPT-Image-1 inclui recursos de segurança robustos, como marca d'água de procedência, moderação de conteúdo ajustável e uma política rigorosa de não utilização de dados de clientes para treinamento, garantindo a conformidade com a marca e as exigências legais.
P: Onde posso encontrar a documentação da API para GPT-Image-1?
A: A documentação completa da API para integração do GPT-Image-1 está disponível no portal de documentação da API de IA/ML. Consulte o documentação oficial Para obter instruções detalhadas.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Experimente grátis

Uma API
Mais de 300 modelos de IA

Economize 20% nos custos