

在
出去


Text to Speech
const main = async () => {
const response = await fetch('https://api.ai.cc/v1/images/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'google/imagen-4.0-generate-001',
prompt: 'A jellyfish in the ocean',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main();
import requests
def main():
response = requests.post(
"https://api.ai.cc/v1/images/generations",
headers={
"Authorization": "Bearer ",
"Content-Type": "application/json",
},
json={
"model": "google/imagen-4.0-generate-001",
"prompt": "A jellyfish in the ocean",
},
)
response.raise_for_status()
data = response.json()
print("Generation:", data)
if __name__ == "__main__":
main()
- API 操练场(Playground)

在集成之前,请在沙箱环境中测试所有 API 模型。
我们提供 300 多种模型供您集成到您的应用程序中。


产品详情
Imagen 4 Generate 是 Google DeepMind 的旗舰级文本转图像模型,旨在生成高质量、照片级逼真的图像,并具有卓越的文本保真度和灵活的样式控制。它能够高效处理较长的文本提示,支持多种宽高比,并生成高达 2K 分辨率的图像,在生成速度和视觉精度之间取得平衡,以满足各种创意和商业需求。
技术规格
- ⚙️ 图像分辨率: 最高可达 2048×2048 (2K)
- 🖼️ 宽高比: 1:1,3:4,4:3,9:16,16:9
- ✍️ 提示输入: 最多 480 个令牌(支持扩展文本提示)
- 🎨 样式控制: 写实主义、抽象主义、插画、品牌美学
- 🅰️ 文本渲染: 高级文本处理功能,适用于图像上清晰易读的排版和较长的字符串。
- 💾 输出格式: 单张静态图像(JPEG/PNG)
绩效指标
- ⚡ 世代速度: 每张图像大约需要 3-4 秒(根据图像复杂程度而有所不同)
- ✨ 富达: 具有高精度图像还原能力和精确的元素放置
- 📝 文本详情: 改进了图像中嵌入文本的渲染效果,使其清晰易读。
- 📏 宽高比灵活性: 支持方形、垂直和水平格式,适用于多种使用场景
API定价
每张图片 0.042 美元
主要能力
- 📸 照片写实主义: 能够生成清晰、细节丰富的图像,并具有动态光照和纹理保真度。
- 🅰️ 文本和排版: 擅长生成包含复杂文本组件的图像,非常适合用于营销材料、包装和编辑艺术。
- 🚀 速度和效率: 针对创意工作流程中的快速迭代进行了优化,同时又不牺牲质量。
- 🌈 多功能性: 支持从逼真照片到风格化插图等各种图像风格和构图。
用例
- 📈 市场营销与品牌推广: 为数字和印刷宣传活动创建精美的视觉素材,并采用准确、与品牌相关的字体。
- 📦 产品可视化: 生成带有嵌入式文字和徽标的详细模型和包装原型。
- 📚 出版与教育内容: 设计信息图、漫画、版面布局和编辑视觉素材,将图像和清晰易读的文字相结合。
- 🎨 创意项目: 灵活生成,用于跨风格和格式的艺术探索。
代码示例
与其他型号的比较
- 对比 图像 4 超: Imagen 4.0-generate-001 提供出色的整体保真度和风格灵活性,渲染速度稍慢,但对各种创意人士具有广泛的适用性。
- vs Midjourney v6: Midjourney 侧重于风格化和艺术化的构图,而 Imagen 4 则提供更高的真实感、更出色的文本保真度和更广泛的宽高比。
- 对比 来自 3: DALL·E 3 与对话式 AI 紧密集成,并支持编辑功能;Imagen 4 针对生产质量保真度进行了优化,并在可扩展的流程中提供了更灵活的宽高比选项。
局限性
- ❌ 不支持图像修复或去除(图像编辑)。
- 🎥 输出仅限于静态图像;不支持视频或动画生成。
- 🔄种子确定性可能因系统负载而异。
- 💬 不支持多模态输入(图像+文本)。
常见问题解答 (FAQ)
❓ Imagen 4 Generate 的主要设计用途是什么?
Imagen 4 Generate 主要设计用于高质量、逼真的文本到图像生成,强调出色的文本保真度和多功能的样式控制,适用于创意和商业应用。
❓ 最大分辨率和支持的宽高比是多少?
该型号支持高达 2048x2048 (2K) 的图像分辨率,并提供多种宽高比的灵活性,包括 1:1、3:4、4:3、9:16 和 16:9。
❓ Imagen 4 如何处理生成的图像中的文本?
Imagen 4 具有先进的文本渲染功能,可确保清晰易读的排版和嵌入在生成的图像中的长字符串清晰可辨,使其成为营销和编辑内容的理想选择。
❓ Imagen 4 可以生成视频或动画吗?
不,Imagen 4 Generate 仅限于生成单个静态图像(JPEG/PNG),不支持视频或动画生成。
❓ 与 Midjourney 或 DALL·E 3 等型号相比,Imagen 4 有哪些突出之处?
与 Midjourney 相比,Imagen 4 提供更高的真实感、更出色的文本保真度和更广泛的宽高比选择。与 DALL·E 3 相比,Imagen 4 针对生产级保真度进行了优化,并提供更灵活的宽高比选项,以适应可扩展的流程,而 DALL·E 3 则集成了对话式 AI 并提供编辑功能。



登录