Fora

Bater papo

desativar

HunyuanImagem 3.0

O modelo suporta a compreensão e a renderização de instruções com milhares de palavras e cria textos claros e legíveis dentro das imagens, tornando-o ideal para diversas aplicações criativas.

Tokens de $1 grátis para novos membros

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v1/images/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'hunyuan/hunyuan-image-v3-text-to-image',
      prompt: 'A jellyfish in the ocean',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main();

                                        import requests


def main():
    response = requests.post(
        "https://api.ai.cc/v1/images/generations",
        headers={
            "Authorization": "Bearer ",
            "Content-Type": "application/json",
        },
        json={
            "model": "hunyuan/hunyuan-image-v3-text-to-image",
            "prompt": "A jellyfish in the ocean",
        },
    )

    response.raise_for_status()
    data = response.json()

    print("Generation:", data)


if __name__ == "__main__":
    main()

Docs

Mais de 300 modelos de IA para OpenClaw e agentes de IA

Economize 20% nos custos e ganhe tokens grátis de $1.

Obter chave de API Explorar modelos

HunyuanImagem 3.0

Detalhes do produto

HunyuanImagem 3.0 HunyuanImage 3.0 é o modelo nativo de geração de texto para imagem multimodal de ponta da Tencent. Este sistema avançado integra uma arquitetura de modelo de linguagem autorregressivo de grande porte com geração de imagens baseada em difusão, estabelecendo novos padrões de qualidade de imagem e alinhamento texto-imagem. Com impressionantes 80 bilhões de parâmetros e um design de Mistura de Especialistas (MoE), o HunyuanImage 3.0 se destaca na geração de imagens hiper-realistas, altamente detalhadas e estilisticamente diversas diretamente a partir de comandos em linguagem natural. Ele oferece suporte robusto para comandos em chinês e inglês e fornece proporções flexíveis, capacitando criadores em diversos setores.

✨ Especificações Técnicas

Tipo de modelo: Modelo de difusão autorregressiva multimodal nativo com estrutura MoE LLM
Parâmetros: 80 bilhões no total, 13 bilhões ativos por token (MoE)
Arquitetura: Mistura de especialistas (64 especialistas), transformador de difusão aprimorado, compressão de autoencoder variacional (VAE)
Dados de treinamento: Treinado com 5 bilhões de pares de imagem-texto, enriquecido com quadros de vídeo e dados multimodais intercalados.
Modalidades de entrada: Sugestões de texto (chinês/inglês)
Saída: Imagens de alta resolução, proporções flexíveis

📈 Indicadores de desempenho

Comparação com versões anteriores: Supera o HunyuanImage 2.1 com uma taxa de sucesso relativa de 14,1% na avaliação humana profissional em relação à qualidade da imagem e ao alinhamento do texto.
Qualidade da imagem: Produz fotos hiper-realistas, ilustrações detalhadas e diversos estilos artísticos com grande agilidade.
Metodologia de avaliação: Mil perguntas cuidadosamente selecionadas foram avaliadas por mais de 100 avaliadores humanos profissionais usando a estrutura Bom/Igual/Ruim (GSB) para garantir a imparcialidade.

💡 Principais Características

✅ Arquitetura MoE em Grande Escala: Oferece um total de 80 bilhões de parâmetros, com 13 bilhões ativados por token usando 64 especialistas, equilibrando imensa capacidade com eficiência computacional.
✨ Arquitetura de Difusão Revolucionária: Um transformador de difusão aprimorado garante a geração de imagens detalhadas, coerentes e de alta resolução.
🚀 Compressão avançada para os pés: Comprime eficazmente as características da imagem, reduzindo os custos computacionais e, simultaneamente, melhorando a fidelidade visual.
🔗 Sistema de codificador duplo aprimorado: Integra de forma precisa os codificadores de visão e texto para uma compreensão semântica superior e alinhamento perfeito entre texto e imagem.
🔧 Módulo de aprimoramento de prompts: Ajusta automaticamente as instruções do usuário para otimizar a qualidade e a precisão da geração, garantindo melhores resultados.
🌐 Suporte a vários idiomas: O processamento com reconhecimento de caracteres oferece suporte fluente tanto para comandos em chinês quanto em inglês.
📐 Proporções de aspecto flexíveis: Suporta diversas proporções, incluindo 1:1, 16:9, 9:16, 4:3, 3:4, 3:2 e 2:3 para atender a diversas demandas criativas.

💲 Preços da API

O preço da API HunyuanImage 3.0 é de US$ 0,105 por megapixel.

🎯 Casos de uso

🖼️ Imagens de marketing e publicidade que exigem qualidade fotorrealista.
🎨 Exploração artística diversificada: aquarela, pintura a óleo, anime, surrealismo, cyberpunk e muito mais.
👤 Design de personagens e quadros de animação com detalhes expressivos.
📚 Recursos visuais e histórias em quadrinhos educativas com excelente consistência textual.
🏗️ Prototipagem visual para design de produto e gêmeos digitais.

⚖️ Comparação com outros modelos

vs Semente 4.0: O HunyuanImage 3.0 opera em uma escala maior, com 80 bilhões de parâmetros, por meio de sua arquitetura Mixture of Experts, superando os aproximadamente 50 bilhões de parâmetros do Seedream 4.0. O HunyuanImage também oferece suporte mais fluente para instruções em chinês e inglês, enquanto o Seedream se concentra principalmente no inglês. Embora ambos os modelos forneçam imagens de alta fidelidade, o HunyuanImage demonstra aderência superior às instruções e suporte abrangente a múltiplas proporções de tela.

vs Imagem Flash Gemini 2.5: O modelo MoE em grande escala do HunyuanImage 3.0 foi projetado para gerar imagens hiper-realistas e uma ampla gama de estilos artísticos. O Gemini 2.5, por outro lado, tende a produzir imagens mais artísticas e estilizadas, com um tamanho de parâmetro menor (aproximadamente 30 bytes). O HunyuanImage oferece maior versatilidade em diversos casos de uso devido aos seus recursos de entrada em dois idiomas e opções flexíveis de resolução, proporcionando uma liberdade criativa mais abrangente em comparação com modelos que oferecem opções mais limitadas de idioma e proporção.

vs GPT-Imagem: Ambos os modelos utilizam arquiteturas de difusão, mas o HunyuanImage 3.0 integra de forma exclusiva uma grande estrutura multimodal MoE LLM, aprimorando significativamente o alinhamento texto-imagem. O GPT-Image geralmente produz imagens de qualidade geral com aderência moderada aos comandos. Em contraste, o HunyuanImage otimiza sistematicamente os comandos e emprega um pipeline de duas etapas para melhorar a clareza e os detalhes. Além disso, o HunyuanImage suporta comandos multilíngues e múltiplas proporções de tela, expandindo consideravelmente as possibilidades criativas além dos formatos de saída mais básicos do GPT-Image.

🔌 Integração de API

O HunyuanImage 3.0 é facilmente acessível através da API de IA/ML. A documentação completa pode ser encontrada aqui. disponível aqui.

❓ Perguntas Frequentes

P: Como a arquitetura MoE do HunyuanImage 3.0 beneficia a geração de imagens?

A: A arquitetura Mixture-of-Experts (MoE) do HunyuanImage 3.0 permite um escalonamento eficiente com 80 bilhões de parâmetros, ativando apenas 13 bilhões por token. Esse design otimiza o custo computacional e aprimora a capacidade do modelo de aprender características visuais complexas e estilos diversos, resultando em imagens de maior qualidade e mais detalhadas.

P: O HunyuanImage 3.0 consegue gerar imagens com estilos artísticos específicos?

R: Sim, o HunyuanImage 3.0 se destaca na geração de uma ampla gama de estilos artísticos, incluindo fotos hiper-realistas, aquarela, pintura a óleo, anime, surrealismo e cyberpunk, entre outros. Seu transformador de difusão avançado e seus extensos dados de treinamento permitem que ele se adapte a vários estímulos estilísticos com eficácia.

P: O que torna o HunyuanImage 3.0 particularmente forte no suporte a prompts multilíngues?

A: O HunyuanImage 3.0 apresenta processamento com reconhecimento de caracteres e um sistema de codificação dupla aprimorado que integra perfeitamente os codificadores de visão e texto. Isso permite uma compreensão semântica e alinhamento superiores para instruções em chinês e inglês, garantindo que as entradas multilíngues sejam interpretadas com precisão e refletidas fielmente nas imagens geradas.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Experimente grátis

Mais de 300 modelos de IA para
OpenClaw e Agentes de IA

Economize 20% nos custos