



const main = async () => {
const response = await fetch('https://api.ai.cc/v1/images/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'google/gemini-2.5-flash-image',
prompt: 'A jellyfish in the ocean',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main();
import requests
def main():
response = requests.post(
"https://api.ai.cc/v1/images/generations",
headers={
"Authorization": "Bearer ",
"Content-Type": "application/json",
},
json={
"model": "google/gemini-2.5-flash-image",
"prompt": "A jellyfish in the ocean",
},
)
response.raise_for_status()
data = response.json()
print("Generation:", data)
if __name__ == "__main__":
main()
- API 操练场(Playground)

在集成之前,请在沙箱环境中测试所有 API 模型。
我们提供 300 多种模型供您集成到您的应用程序中。


产品详情
Gemini 2.5 闪光灯图像它以前被称为 Nano Banana,是Google的突破性产品。 AI图像编辑模型 它是在双子座3号计划下开发的,通过提供以下功能彻底革新了图像修改技术: 高度精确、可控且自然语言驱动的编辑无需手动遮罩。这款高级模型在文本转图像的生成和编辑方面表现出色,用户只需简单的描述性提示即可轻松转换照片。Gemini Native Image 尤其擅长维护图像的完整性。 角色一致性保留复杂的场景细节,并生成 照片级真实感输出 它速度惊人,是创意设计、营销和内容创作工作流程中不可或缺的工具。
🚀 技术规格
- 基于Google的 多模态扩散变换器(MMDiT) 建筑学。
- 模型规模从 4.5 亿到 80亿个参数 包含 15 至 38 个处理模块。
- 原生图像分辨率支持 1024x1024像素可扩展至 1024x1792 宽高比。
- 结合视觉自回归模型和扩散算法 结构化的迭代图像优化。
- 针对以下方面进行了优化 设备端处理包括旗舰级移动 TPU 架构。
- 支持 无遮罩图像修复布局感知的外绘和多图像上下文编辑。
- 大约需要 2.1GB GPU 显存 在推理过程中。
- 生成高质量、逼真的图像,具备风格迁移功能和批量处理支持。
📈 绩效指标
根据性能对比, Google Gemini 原生图像 (又名纳米香蕉)在速度方面领先 评分95%显著优于 DALL-E 3、Midjourney 和 Stable Diffusion。其图像质量也位居榜首。 88%与竞争对手相比,Gemini Native Image 展现出更卓越的逼真度。在内存效率方面,Gemini Native Image 得分也很高。 92%这表明其资源消耗更低。这些指标突显了其在速度、质量和内存效率方面的均衡卓越表现,使其脱颖而出。 高性能AI图像编辑模型。

💡 使用案例
Nano Banana(Gemini 原生镜像)专为以下两种情况而设计: 专业和创意应用包括产品摄影增强、人工智能生成的网红内容、社交媒体营销活动以及电影或游戏后期制作。它能够 保留面部特征和身份 多次编辑功能使其成为创建一致的品牌资产和叙事视觉效果的理想之选。该模型支持复杂的场景重建、背景替换、对象操作和风格迁移,所有操作均可通过直观的文本说明轻松完成。 简化工作流程 这通常需要专业的图像编辑技能。
✨ 主要特点
- ✅ 快速准确: Gemini能够解读复杂、包含丰富上下文信息的文本指令。 更高的保真度从而实现更精准、更相关的编辑。
- 👤 角色一致性: 它比竞争对手更有效地保护身份信息,从而确保 连贯的面孔和人物 跨版本编辑。
- 🏞️ 场景保存与融合: 它的场景融合技术产生 自然、无缝的背景 图像元素之间过渡平滑。
- ⚡ 一镜到底剪辑: 纳米香蕉实现了 一次编辑即可获得高质量结果减少迭代改进步骤。
- 🖼️多图像上下文处理: 它可以同时编辑多张图像,支持 持续的AI影响者生成 以及品牌资产创建。
- 📏 控制宽高比: 支持多种宽高比,包括电影横屏、正方形格式和竖屏社交媒体尺寸。 多功能内容创作。
💰 API 定价
- 0.04095美元 每张图片
🎯 提高效率的小技巧
为了充分利用 Gemini 的高级功能,用户应提供 详细、富含上下文信息的自然语言提示明确指定所需的修改,包括风格、光线、构图和主体调整。将该模型整合到对精度和一致性要求较高的工作流程中,例如专业营销活动或创意制作,将最大限度地发挥其作用。 快速处理能力支持实时迭代非常适合快速原型制作和交互式编辑体验。
为了获得最佳输出效果,文本提示应该 明确说明变化的性质和位置 避免使用含糊不清的词语,例如“将背景替换为霓虹灯城市景观”或“在花瓶下方添加柔和的阴影”。避免使用模糊的术语可以确保模型理解空间和风格背景,从而实现连贯且美观的编辑效果。利用迭代优化功能还可以帮助用户完善复杂的图像变换,同时保持与原始场景的高度一致性。
💻 代码示例
🆚 与其他型号的比较
- 与 Flux Kontext 的对比: Nano Banana 在维持方面表现出色 角色一致性 和 无缝场景融合Flux Kontext 一次即可提供更连贯、更逼真的编辑效果,而 Flux Kontext 通常需要多次尝试,并且在处理面部细节方面存在困难。
- 对比 来自 3: Nano Banana 取得了更好的效果 立即遵守 并且具有照片级真实感(较低的 FID 分数),生成速度更快,图像中的文本渲染精度更高,在复杂构图和逼真风格迁移方面优于 DALL-E 3。
- 与 Midjourney v7 的对比: Nano Banana 提供卓越的 风格一致性 和 布局感知外绘这使得场景扩展更加自然,空间保留更加出色,而 Midjourney 则可能生成风格化程度更高但一致性较差的编辑效果,更适合专业用途。
- 对比 稳定扩散 3: Nano Banana 提供更高的 语义准确性 处理速度更快,GPU 内存消耗更少,提供增强的移动优化和迭代功能,适用于实时商业工作流程。

这 Gemini 原生图像模型 (原名 Nano Banana)代表了人工智能驱动图像编辑领域的一次变革性飞跃。它无缝融合了自然语言理解、快速处理和卓越的视觉保真度,重新定义了照片的创建和修改方式。其相对于竞争机型的显著优势使其成为…… 功能强大且易于使用的工具 为追求易用性和专业级效果的创作者而设计。
❓ 常见问题解答 (FAQ)
什么是 Gemini 2.5 闪光图像?
Gemini 2.5 Flash Image,又名 Nano Banana,是Google的高级 AI 图像编辑模型,它使用自然语言提示进行高度精确和可控的图像修改,无需手动遮罩。
Gemini Native Image 如何保持编辑过程中角色形象的一致性?
该模型利用其先进的架构有效地保留了身份细节,确保面部和字符在多次图像编辑操作中保持连贯性和一致性,这是其相对于许多竞争对手的关键优势。
Gemini 2.5 Flash Image 的主要应用场景有哪些?
它非常适合用于产品摄影增强、AI 生成的网红内容、社交媒体活动以及电影/游戏开发中的后期制作,能够通过简单的文本提示进行复杂的编辑,例如背景替换和对象操作。
Gemini Native Image 是否针对移动设备进行了优化?
是的,它针对设备端处理进行了优化,包括旗舰级移动 TPU 架构,使其在移动应用和实时编辑体验方面非常高效。
用户如何才能最大限度地提高 Gemini 2.5 闪存映像的使用效率?
用户应提供详细且明确的自然语言提示,具体说明希望在风格、光照、构图和位置方面进行哪些更改。利用其快速处理能力进行迭代优化也有助于获得最佳效果。



登录