Fora

Bater papo

ativo

Gemini 2.5 Flash Image Edit (Nano Banana)

Destaca-se pela consistência dos caracteres, preservação da cena e resultados rápidos de alta qualidade, redefinindo os fluxos de trabalho de edição de fotos.

Tokens de $1 grátis para novos membros

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v1/images/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'google/gemini-2.5-flash-image-edit',
      prompt: 'Mona Lisa with glasses',
      image_urls: [
        'https://upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Mona_Lisa%2C_by_Leonardo_da_Vinci%2C_from_C2RMF_retouched.jpg/960px-Mona_Lisa%2C_by_Leonardo_da_Vinci%2C_from_C2RMF_retouched.jpg',
        'https://upload.wikimedia.org/wikipedia/commons/thumb/a/af/Glasses_black.jpg/960px-Glasses_black.jpg',
      ]
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main();

                                        import requests


def main():
    response = requests.post(
        "https://api.ai.cc/v1/images/generations",
        headers={
            "Authorization": "Bearer ",
            "Content-Type": "application/json",
        },
        json={
            "prompt": "Mona Lisa with glasses",
            "model": "google/gemini-2.5-flash-image-edit",
            "image_urls": [
                "https://upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Mona_Lisa%2C_by_Leonardo_da_Vinci%2C_from_C2RMF_retouched.jpg/960px-Mona_Lisa%2C_by_Leonardo_da_Vinci%2C_from_C2RMF_retouched.jpg",
                "https://upload.wikimedia.org/wikipedia/commons/thumb/a/af/Glasses_black.jpg/960px-Glasses_black.jpg",
            ]
        },
    )

    response.raise_for_status()
    data = response.json()

    print("Generation:", data)


if __name__ == "__main__":
    main()

Docs

Mais de 300 modelos de IA para OpenClaw e agentes de IA

Economize 20% nos custos e ganhe tokens grátis de $1.

Obter chave de API Explorar modelos

Gemini 2.5 Flash Image Edit (Nano Banana)

Detalhes do produto

Apresentando Gemini 2.5 Flash Image Edit, codinome Nano BananaO Google DeepMind é um modelo de IA de última geração desenvolvido no âmbito da iniciativa Gemini 3. Essa ferramenta avançada revoluciona a geração e edição de imagens, permitindo que os usuários realizem diversas tarefas. Edições altamente precisas, baseadas em linguagem natural Sem a necessidade de mascaramento manual. Integra-se perfeitamente aos fluxos de trabalho criativos, destacando-se na fusão de múltiplas imagens em cenas coesas, mantendo a consistência de caráter e estilo e produzindo resultados fotorrealistas e de alta qualidade com inferência extremamente rápida.

✓ Transforme seus visuais: Este modelo permite que criadores e profissionais de marketing otimizem tarefas de manipulação de imagens com transformações visuais detalhadas e precisas. Basta usar comandos descritivos como "mudar o fundo para uma paisagem urbana neon", "restaurar uma foto desbotada" ou "alterar a roupa do personagem". O Gemini 2.5 Flash Image Edit é ideal para aplicações como aprimoramento de fotografia de produtos, geração de conteúdo com IA para influenciadores, campanhas em mídias sociais, pós-produção de filmes e jogos e visualização arquitetônica.

Imagem gerada por IA de um momento romântico na neve.

Incitar: Um close-up de um momento romântico em que as pessoas se abraçam enquanto neva.

🔧 Especificações Técnicas

✅ Fusão de múltiplas imagens: Permite a integração de objetos ou a remodelação, mesclando até três imagens em uma única composição.
✅ Identidades consistentes: Mantém a identidade de personagens, objetos e estilos em diversas imagens e sessões de edição, o que é vital para a coerência da marca e da narrativa.
✅ Edição Conversacional: Permite transformações visuais específicas por meio de comandos intuitivos em linguagem natural (por exemplo, desfocar fundos, remover objetos, alterar poses e colorir imagens).
✅ Raciocínio Visual Avançado: Incorpora conhecimento integrado do mundo, permitindo uma compreensão complexa da imagem que vai além do mero fotorrealismo.
✅ Marca d'água SynthID: Incorpora marcas d'água digitais invisíveis nos resultados para garantir transparência e uso responsável da IA.
✅ Ampla compatibilidade de entrada: Aceita entradas nativas nos formatos PNG, JPEG e WEBP, com um tamanho de entrada de até 500 MB.
✅ Eficiência otimizada: Projetado para baixa latência e custo-benefício, tornando-o adequado para edição interativa em tempo real e fluxos de trabalho de prototipagem rápida.

🚀 Métricas de desempenho

Gemini 2.5 Flash Image Edit Lidera o setor em excelência equilibrada, combinando alta velocidade de inferência com qualidade de imagem superiorEle supera consistentemente os modelos concorrentes em aspectos cruciais como aderência imediata, fotorrealismo e consistência de personagens. Sua eficiência no uso de memória e processamento acelera significativamente os fluxos de trabalho, mantendo a fidelidade de nível profissional, tornando-o a escolha preferida para indústrias criativas que exigem edição rápida e precisa com estilo consistente.

Comparação visual de métricas de desempenho

💰 Principais casos de uso

★ Aprimoramento de Fotografia de Produtos: Obtenha ajustes complexos de cena e imagens detalhadas do produto.
★ Conteúdo de influenciadores gerado por IA: Crie elementos visuais com identidade consistente e preservação da marca.
★ Campanhas em redes sociais: Gere rapidamente conteúdo visual de alta qualidade para campanhas dinâmicas.
★ Pós-produção de filmes e jogos: Facilitar a reconstrução de cenas, a manipulação de objetos e os efeitos visuais.
★ Visualização Arquitetônica: Adapte designs e conceitos através de transferências perfeitas de estilo e textura.
★ Processamento em lote: Gere, de forma eficiente e em grande escala, ativos de marca e narrativa consistentes.

💲 Preços da API

Custo-benefício: US$ 0,04095 por imagem

💡 Dicas para maximizar a eficiência

Para o melhores resultados com Gemini 2.5 Flash Image Edit, fornecer instruções explícitas e ricas em contexto em linguagem naturalDescreva claramente as edições desejadas, especificando estilo, composição, iluminação e modificações específicas no assunto. Evite instruções vagas. Para garantir que o modelo interprete com precisão suas intenções espaciais e estilísticas, utilize seus recursos de edição iterativa para transformações complexas, mantendo sempre a precisão dos detalhes. alta fidelidade e coerência.

T-Rex gerado por IA em várias fantasias de Halloween demonstrando instruções iterativas.

Exemplo de prompts iterativos: Prompt 1: O tiranossauro rex está fantasiado para o Halloween. Prompt 2: Agora experimente uma fantasia mais divertida. Prompt 3: Que divertido! Agora vamos experimentar uma fantasia fofa. Prompt 4: Que tal uma fantasia de pirata?

💻 Exemplo de código

📈 Comparação com outros modelos líderes

✅ VS Contexto de Fluxo: O Gemini oferece edições coerentes e fotorrealistas de forma consistente em uma única passagem. Em contraste, o Flux Kontext frequentemente exige múltiplas tentativas para detalhes faciais precisos e apresenta dificuldades na preservação consistente da personalidade dos personagens.
✅ VS DALL-E 3: Gemini oferece aderência imediata superior, velocidades de geração mais rápidas, fotorrealismo aprimorado e renderização de texto mais precisa em composições complexas e transferências de estilo.
✅ VS Midjourney v7: O Gemini oferece consistência de estilo superior e preenchimento com reconhecimento de layout para extensões de cena mais naturais e melhor preservação espacial. O Midjourney v7, embora produza imagens estilizadas, geralmente resulta em edições menos consistentes para uso profissional.
✅ VS Difusão Estável 3: Gemini oferece maior precisão semântica, velocidades de processamento mais rápidas e melhor eficiência de memória, otimizado especificamente para arquiteturas TPU móveis e fluxos de trabalho em tempo real. O Stable Diffusion 3 é mais rápido em alguns cenários, mas demonstra menor consistência em estilo e coerência.

❓ Perguntas frequentes (FAQ)

1. Que arquitetura eficiente permite a manipulação de imagens rápida e precisa do Gemini 2.5 Flash Image Edit?

O Gemini 2.5 Flash Image Edit emprega uma arquitetura de difusão condicional simplificada, otimizada para edição de imagens com baixa latência, mantendo alta precisão. Ele apresenta mecanismos de atenção esparsos, alinhamento multimodal eficiente para rápida interpretação de instruções e pipelines de refinamento progressivo. Isso permite edições complexas com tempos de resposta inferiores a 500 ms, preservando a qualidade visual e a precisão semântica.

2. Como o modelo mantém a qualidade da edição apesar do processamento acelerado?

A arquitetura implementa compensações inteligentes entre qualidade e eficiência por meio do processamento seletivo de alto nível de detalhes em regiões críticas, avaliação precoce da coerência visual e alocação adaptativa de computação. Ela emprega compreensão semântica eficiente, manipulação simplificada de objetos e transferência de estilo otimizada para garantir que as edições aceleradas mantenham os padrões de qualidade profissional, cruciais para aplicações interativas.

3. Que tipos de tarefas de edição de imagem se beneficiam mais da abordagem otimizada para Flash?

O modelo se destaca na remoção e substituição rápidas de objetos, modificações ágeis de fundo, ajustes de estilo velozes, correções eficientes de cor e iluminação e melhorias rápidas de composição. Ele mantém um desempenho sólido em fluxos de trabalho de edição comuns, incluindo otimização de imagens de produtos, aprimoramento de conteúdo para mídias sociais, retoque rápido de fotos e exploração criativa em tempo real, especialmente para aplicações que exigem feedback visual imediato.

4. Como o Gemini 2.5 Flash Image Edit lida com sessões de edição interativas em tempo real?

Ele oferece suporte à edição interativa contínua por meio do processamento incremental de solicitações de edição, gerenciamento eficiente de estado que rastreia o histórico de edições sem sobrecarga significativa e geração de pré-visualizações responsivas para feedback visual imediato. O modelo também apresenta escalonamento adaptativo de qualidade, priorização inteligente de solicitações e recursos simplificados de desfazer/refazer, permitindo uma exploração criativa fluida sem degradação de desempenho durante sessões intensivas.

5. Quais vantagens de implantação o modelo otimizado para Flash oferece para serviços de edição escaláveis?

As otimizações de eficiência permitem uma implementação em larga escala e com boa relação custo-benefício, graças à redução significativa dos requisitos computacionais por edição, ao aumento da taxa de transferência em infraestrutura compartilhada e ao desempenho consistente sob alta utilização simultânea. O modelo suporta o processamento em lote eficiente de edições semelhantes, a utilização adaptativa de recursos e a integração perfeita em fluxos de trabalho de edição automatizados, tornando-o ideal para serviços que exigem edição de imagens confiável e ágil em grande escala.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Experimente grátis

Mais de 300 modelos de IA para
OpenClaw e Agentes de IA

Economize 20% nos custos