qwen-bg
max-ico04
出去
max-ico02
聊天
max-ico03
禁用
HunyuanImage 3.0
该模型支持理解和渲染数千字的提示,并在图像中创建清晰易读的文本,使其成为各种创意应用的理想选择。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v1/images/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'hunyuan/hunyuan-image-v3-text-to-image',
      prompt: 'A jellyfish in the ocean',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main();

                                
                                        import requests


def main():
    response = requests.post(
        "https://api.ai.cc/v1/images/generations",
        headers={
            "Authorization": "Bearer ",
            "Content-Type": "application/json",
        },
        json={
            "model": "hunyuan/hunyuan-image-v3-text-to-image",
            "prompt": "A jellyfish in the ocean",
        },
    )

    response.raise_for_status()
    data = response.json()

    print("Generation:", data)


if __name__ == "__main__":
    main()
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
qwenmax-bg
图片
HunyuanImage 3.0

产品详情

HunyuanImage 3.0 混元图像3.0是腾讯自主研发的尖端原生多模态文本转图像生成模型。该先进系统融合了自回归大型语言模型架构和基于扩散的图像生成技术,为图像质量和文本图像对齐树立了新的标杆。混元图像3.0拥有惊人的800亿个参数,并采用混合专家(MoE)设计,能够根据自然语言提示直接生成超逼真、细节丰富且风格多样的图像。它同时支持中文和英文提示,并提供灵活的宽高比,助力各行各业的创作者。

✨ 技术规格

  • 型号: 基于MoE LLM骨架的原生多模态自回归扩散模型
  • 参数: 总计 800 亿,每个Tokens 130 亿活跃Tokens(MoE)
  • 建筑学: 专家混合模型(64位专家)、增强型扩散变换器、变分自编码器(VAE)压缩
  • 训练数据: 基于 50 亿个图像-文本对进行训练,并添加了视频帧和交错的多模态数据。
  • 输入方式: 文字提示(中文/英文)
  • 输出: 高分辨率图像,灵活的宽高比

📈 性能基准测试

  • 与先前版本相比: 在专业人工评估中,图像质量和文本对齐方面,HunyuanImage 2.1 的相对胜率比 HunyuanImage 2.1 高出 14.1%。
  • 图像质量: 能够制作超逼真的照片、精细的插图和多种艺术风格的作品,并具有很强的紧迫感。
  • 评估方法: 1000 个精心挑选的提示,由 100 多名专业评分员使用“好/相同/坏 (GSB)”框架进行公平性评估。

💡 主要特点

  • 大规模 MoE 架构: 总共具有 800 亿个参数,每个Tokens激活 130 亿个参数,使用 64 位专家,在巨大的容量和计算效率之间取得平衡。
  • 革命性的扩散架构: 增强型扩散变换器可确保生成细节丰富、连贯且高分辨率的图像。
  • 🚀 高级压缩足部: 有效压缩图像特征,降低计算成本,同时提高视觉保真度。
  • 🔗 增强型双编码器系统: 将视觉编码器和文本编码器紧密集成,以实现卓越的语义理解和文本与图像之间的对齐。
  • 🔧 提示增强模块: 自动优化用户提示,以提升生成质量和准确性,确保更好的输出效果。
  • 🌐 多语言支持: 字符感知处理功能可流畅支持中文和英文提示。
  • 📐 灵活的宽高比: 支持多种比例,包括 1:1、16:9、9:16、4:3、3:4、3:2、2:3,以满足不同的创作需求。

💲 API 定价

混元图像3.0 API的定价为 每百万像素 0.105 美元

🎯 使用案例

  • 🖼️ 需要照片级真实感的营销和广告视觉效果。
  • 🎨 多元化的艺术探索:水彩画、油画、动漫、超现实主义、赛博朋克等等。
  • 👤 角色设计和动画帧,细节表现力强。
  • 📚 具有良好文字一致性的教育性视觉和漫画。
  • 🏗️产品设计和数字孪生的可视化原型。

⚖️ 与其他型号的比较

对比 Seedream 4.0 混元图像3.0凭借其混合专家架构,能够处理800亿个参数,规模远超Seedream 4.0的约500亿个参数。混元图像对中英文提示的支持也更加流畅,而Seedream则主要侧重于英文。虽然两款模型都能生成高保真图像,但混元图像在提示识别和多宽高比支持方面表现更出色。

对比 Gemini 2.5 闪光灯图像 混源图像3.0的大规模MoE模型专为生成超写实图像和各种艺术风格而设计。相比之下,Gemini 2.5更倾向于生成更具艺术性和风格化的输出,且参数规模较小(约300亿)。混源图像凭借其双语输入功能和灵活的分辨率选项,在各种应用场景中展现出更强的通用性,与语言和宽高比选项较为有限的模型相比,能够提供更全面的创作自由。

与 GPT-Image 相比: 两种模型都采用了扩散架构,但混源图像3.0独特地集成了一个大型多模态MoE LLM骨干网络,显著提升了文本与图像的对齐效果。GPT-Image通常生成图像质量一般,提示语的遵循度也一般。相比之下,混源图像系统地优化了提示语,并采用两阶段流程来提升图像的清晰度和细节表现。此外,混源图像支持多语言提示语和多种宽高比,极大地拓展了GPT-Image较为基础的输出格式之外的创作可能性。

🔌 API 集成

HunyuanImage 3.0 可通过 AI/ML API 轻松访问。完整文档请参见此处。 此处提供

❓ 常见问题解答

问:混源图像3.0的MoE架构如何促进图像生成?

答:混元图像3.0中的混合专家(MoE)架构能够高效扩展,处理800亿个参数,而每个标记仅激活130亿个参数。这种设计优化了计算成本,增强了模型学习复杂视觉特征和多样化风格的能力,从而输出更高质量、更精细的图像。

问:混源图像3.0能否生成具有特定艺术风格的图像?

答:是的,混源图像3.0在生成各种艺术风格方面表现出色,包括超写实照片、水彩画、油画、动漫、超现实主义和赛博朋克等。其先进的扩散变换器和丰富的训练数据使其能够有效地适应各种风格提示。

问:混源图像3.0在多语言提示支持方面有哪些特别强大的优势?

答:混源图像3.0具备字符感知处理功能和增强型双编码器系统,该系统紧密集成了视觉编码器和文本编码器。这使得中英文提示的语义理解和对齐能力更强,从而确保多语言输入能够被准确解读并忠实地反映在生成的图像中。

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用