



const main = async () => {
const response = await fetch('https://api.ai.cc/v1/images/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'google/gemini-2.5-flash-image',
prompt: 'A jellyfish in the ocean',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main();
import requests
def main():
response = requests.post(
"https://api.ai.cc/v1/images/generations",
headers={
"Authorization": "Bearer ",
"Content-Type": "application/json",
},
json={
"model": "google/gemini-2.5-flash-image",
"prompt": "A jellyfish in the ocean",
},
)
response.raise_for_status()
data = response.json()
print("Generation:", data)
if __name__ == "__main__":
main()

Detalhes do produto
Imagem Flash Gemini 2.5, anteriormente conhecido como Nano Banana, é o inovador produto do Google. modelo de edição de imagens por IA Desenvolvido no âmbito da iniciativa Gemini 3, revoluciona a modificação de imagens ao oferecer... Edições altamente precisas, controláveis e baseadas em linguagem natural., eliminando a necessidade de mascaramento manual. Este modelo avançado se destaca na geração e edição de texto para imagem, permitindo que os usuários transformem fotografias sem esforço usando instruções descritivas simples. O Gemini Native Image é particularmente eficiente na manutenção de consistência do personagem, preservando detalhes complexos da cena e gerando resultados fotorrealistas Com uma velocidade notável, torna-se uma ferramenta indispensável para fluxos de trabalho de design criativo, marketing e criação de conteúdo.
🚀 Especificações Técnicas
- Construído com base nos princípios do Google. Transformador de Difusão Multimodal (MMDiT) arquitetura.
- Escalas do modelo de 450 milhões para 8 bilhões de parâmetros com 15 a 38 blocos de processamento.
- Suporte nativo para resolução de imagem em 1024x1024 pixels, expansível para proporções de 1024x1792.
- Combina modelagem autorregressiva visual com difusão para refinamento de imagem estruturado e iterativo.
- Otimizado para processamento no dispositivo, incluindo arquiteturas TPU móveis de ponta.
- Suportes repintura sem máscara, pintura de contorno com reconhecimento de layout e edição de contexto de múltiplas imagens.
- Requer aproximadamente 2,1 GB de memória da GPU durante a inferência.
- Gera imagens fotorrealistas de alta qualidade com recursos de transferência de estilo e suporte para processamento em lote.
📈 Métricas de desempenho
De acordo com comparações de desempenho, Imagem nativa do Google Gemini (também conhecido como Nano Banana) lidera em velocidade com um Classificação de 95%, superando significativamente DALL-E 3, Midjourney e Stable Diffusion. Também apresenta a melhor qualidade de imagem. 88%, demonstrando um fotorrealismo superior em comparação com seus concorrentes. Em relação à eficiência de memória, o Gemini Native Image apresenta pontuações 92%, indicando menor consumo de recursos. Essas métricas destacam sua excelência equilibrada em velocidade, qualidade e eficiência de memória, diferenciando-o como um modelo de edição de imagens de IA de alto desempenho.

💡 Casos de uso
Nano Banana (Imagem Nativa Gemini) foi projetado para ambos aplicações profissionais e criativas, incluindo aprimoramento de fotografia de produtos, conteúdo de influenciadores gerado por IA, campanhas em mídias sociais e pós-produção de filmes ou jogos. Sua capacidade de preservar características e identidades faciais A possibilidade de múltiplas edições torna o modelo perfeito para criar recursos de marca consistentes e visuais narrativos. O modelo suporta reconstrução de cena sofisticada, substituição de fundo, manipulação de objetos e transferência de estilo, tudo por meio de instruções de texto intuitivas, de forma significativa. otimização dos fluxos de trabalho que tradicionalmente exigiam habilidades especializadas em edição de imagens.
✨ Principais características
- ✅ Precisão imediata: Gemini interpreta instruções de texto complexas e ricas em contexto com maior fidelidade, permitindo edições mais precisas e relevantes.
- 👤 Consistência de personagem: Ele preserva os detalhes de identidade de forma mais eficaz do que os concorrentes, garantindo rostos e personagens coerentes em todas as edições.
- 🏞️ Preservação e Fusão de Cenas: Sua tecnologia de fusão de cenas produz fundos naturais e uniformes e transições suaves entre os elementos da imagem.
- ⚡ Edição de Plano Sequência: Nano Banana alcança Resultados de alta qualidade em uma única etapa de edição., reduzindo as etapas de refinamento iterativo.
- 🖼️ Processamento de Contexto Multi-Imagem: Ele lida com edições simultâneas em várias imagens, oferecendo suporte a... geração consistente de influenciadores de IA e criação de ativos de marca.
- 📏 Controle as proporções da tela: Suporta uma ampla variedade de proporções de tela, incluindo paisagens cinematográficas, formatos quadrados e tamanhos verticais para redes sociais. criação de conteúdo versátil.
💰 Preços da API
- $ 0,04095 por imagem
🎯 Dicas para maximizar a eficiência
Para aproveitar ao máximo os recursos avançados do Gemini, os usuários devem fornecer instruções detalhadas e ricas em contexto em linguagem naturalEspecifique claramente as edições desejadas, incluindo estilo, iluminação, composição e modificações no assunto. Integrar o modelo em fluxos de trabalho que exigem alta precisão e consistência, como campanhas de marketing profissionais ou produções criativas, maximizará seu impacto. O processamento rápido permite iterações em tempo real.Ideal para prototipagem rápida e experiências de edição interativa.
Para obter resultados ideais, as instruções de texto devem ser explicitar a natureza e a localização das mudanças Sem ambiguidade, como especificar "substituir o fundo por uma paisagem urbana em néon" ou "adicionar uma sombra suave sob o vaso". Evitar termos vagos garante que o modelo compreenda o contexto espacial e estilístico, resultando em edições coerentes e visualmente atraentes. Utilizar recursos de refinamento iterativo também ajuda os usuários a aperfeiçoar transformações complexas de imagens, mantendo alta fidelidade à cena original.
💻 Exemplo de código
🆚 Comparação com outros modelos
- Vs. Contexto de Fluxo: Nano Banana se destaca na manutenção consistência do personagem e fusão perfeita de cenas, proporcionando edições mais coerentes e fotorrealistas em uma única passagem, enquanto o Flux Kontext geralmente requer várias tentativas e tem dificuldades com detalhes faciais.
- Contra A PARTIR DE 3: Nano Banana alcança resultados melhores adesão imediata e fotorrealismo (pontuação FID mais baixa), com tempos de geração mais rápidos e maior precisão na renderização de texto em imagens, superando o DALL-E 3 em composições complexas e transferências de estilo realistas.
- Contra Midjourney v7: Nano Banana oferece qualidade superior consistência de estilo e pintura externa com reconhecimento de layout, permitindo extensões de cena mais naturais e melhor preservação espacial, enquanto o Midjourney pode produzir edições mais estilizadas, porém menos consistentes para uso profissional.
- Contra Difusão Estável 3: Nano Banana oferece maior precisão semântica e velocidades de processamento mais rápidas com menor consumo de memória da GPU, oferecendo otimização móvel aprimorada e recursos de iteração adequados para fluxos de trabalho comerciais em tempo real.

O Modelo Gemini Native Image (anteriormente Nano Banana) representa um salto transformador na edição de imagens com inteligência artificial. Ao combinar perfeitamente a compreensão da linguagem natural, o processamento rápido e a fidelidade visual superior, redefine a criação e a modificação de fotos. Suas vantagens distintas em relação aos modelos concorrentes o estabelecem como um Ferramenta poderosa e fácil de usar Para criadores que buscam facilidade de uso e resultados de nível profissional.
❓ Perguntas frequentes (FAQ)
O que é uma imagem Flash Gemini 2.5?
O Gemini 2.5 Flash Image, também conhecido como Nano Banana, é o modelo avançado de edição de imagens com IA do Google que usa comandos de linguagem natural para modificações de imagem altamente precisas e controláveis, sem a necessidade de mascaramento manual.
Como o Gemini Native Image mantém a consistência dos caracteres em todas as edições?
O modelo aproveita sua arquitetura avançada para preservar com eficácia os detalhes de identidade, garantindo que rostos e personagens permaneçam coerentes e consistentes em diversas operações de edição de imagem, uma vantagem fundamental sobre muitos concorrentes.
Quais são os principais casos de uso para a imagem Flash Gemini 2.5?
É ideal para aprimoramento de fotografia de produtos, conteúdo de influenciadores gerado por IA, campanhas em mídias sociais e pós-produção no desenvolvimento de filmes/jogos, permitindo edições complexas como substituição de fundo e manipulação de objetos com simples comandos de texto.
O Gemini Native Image está otimizado para dispositivos móveis?
Sim, ele é otimizado para processamento no dispositivo, incluindo as principais arquiteturas TPU para dispositivos móveis, tornando-o altamente eficiente para aplicativos móveis e experiências de edição em tempo real.
Como os usuários podem maximizar a eficiência com o Gemini 2.5 Flash Image?
Os usuários devem fornecer instruções detalhadas e inequívocas em linguagem natural, especificando as alterações desejadas em estilo, iluminação, composição e localização. Aproveitar seu processamento rápido para refinamento iterativo também ajuda a alcançar resultados ideais.
Playground de IA



Conecte-se