Afuera

Charlar

desactivar

HunyuanImagen 3.0

El modelo permite comprender y representar textos de miles de palabras, y crea texto claro y legible dentro de las imágenes, lo que lo hace ideal para diversas aplicaciones creativas.

Fichas de $1 gratis para nuevos miembros

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v1/images/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'hunyuan/hunyuan-image-v3-text-to-image',
      prompt: 'A jellyfish in the ocean',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main();

                                        import requests


def main():
    response = requests.post(
        "https://api.ai.cc/v1/images/generations",
        headers={
            "Authorization": "Bearer ",
            "Content-Type": "application/json",
        },
        json={
            "model": "hunyuan/hunyuan-image-v3-text-to-image",
            "prompt": "A jellyfish in the ocean",
        },
    )

    response.raise_for_status()
    data = response.json()

    print("Generation:", data)


if __name__ == "__main__":
    main()

Docs

Más de 300 modelos de IA para OpenClaw y agentes de IA

Ahorra un 20% en costes y obtén fichas gratis de 1 $.

Obtén la clave API Explorar modelos

HunyuanImagen 3.0

Detalles del producto

HunyuanImagen 3.0 HunyuanImage 3.0 es el modelo nativo de vanguardia de Tencent para la generación de imágenes multimodales a partir de texto. Este avanzado sistema integra una arquitectura de modelo de lenguaje autorregresivo a gran escala con la generación de imágenes basada en difusión, estableciendo nuevos estándares de calidad de imagen y alineación texto-imagen. Con 80 mil millones de parámetros y un diseño de mezcla de expertos (MoE), HunyuanImage 3.0 destaca por generar imágenes hiperrealistas, con gran detalle y estilos diversos directamente a partir de indicaciones en lenguaje natural. Ofrece compatibilidad con indicaciones en chino e inglés y proporciona relaciones de aspecto flexibles, lo que permite a los creadores de diversos sectores trabajar con total libertad.

✨ Especificaciones técnicas

Tipo de modelo: Modelo de difusión autorregresivo multimodal nativo con estructura base LLM de MoE
Parámetros: 80 mil millones en total, 13 mil millones activos por token (MoE)
Arquitectura: Mezcla de expertos (64 expertos), transformador de difusión mejorado, compresión de autoencoder variacional (VAE).
Datos de entrenamiento: Entrenado con 5 mil millones de pares de imagen-texto, enriquecido con fotogramas de vídeo y datos multimodales intercalados.
Modalidades de entrada: Mensajes de texto (chino/inglés)
Producción: Imágenes de alta resolución, relaciones de aspecto flexibles.

📈 Pruebas de rendimiento

Comparación con versiones anteriores: Supera a HunyuanImage 2.1 con una tasa de éxito relativa del 14,1 % en la evaluación humana profesional de la calidad de la imagen y la alineación del texto.
Calidad de la imagen: Realiza fotografías hiperrealistas, ilustraciones detalladas y crea diversos estilos artísticos con un estricto cumplimiento de los plazos de entrega.
Metodología de evaluación: 1000 preguntas cuidadosamente seleccionadas y evaluadas por más de 100 evaluadores humanos profesionales utilizando el marco Bueno/Igual/Malo (GSB, por sus siglas en inglés) para garantizar la imparcialidad.

💡 Características principales

✅ Arquitectura MoE a gran escala: Cuenta con un total de 80 mil millones de parámetros, de los cuales 13 mil millones se activan por token mediante 64 expertos, lo que equilibra una capacidad inmensa con una eficiencia computacional.
✨ Arquitectura de difusión revolucionaria: Un transformador de difusión mejorado garantiza la generación de imágenes detalladas, coherentes y de alta resolución.
🚀 Pie de compresión avanzada: Comprime eficazmente las características de la imagen, reduciendo los costes computacionales y mejorando simultáneamente la fidelidad visual.
🔗 Sistema de doble codificador mejorado: Integra estrechamente los codificadores de visión y texto para lograr una comprensión semántica superior y una alineación precisa entre texto e imagen.
🔧 Módulo de mejora de avisos: Ajusta automáticamente las indicaciones del usuario para optimizar la calidad y la precisión de la generación, garantizando mejores resultados.
🌐 Soporte multilingüe: El procesamiento sensible a los caracteres proporciona una compatibilidad fluida tanto con las indicaciones en chino como en inglés.
📐 Relaciones de aspecto flexibles: Admite diversas proporciones, incluidas 1:1, 16:9, 9:16, 4:3, 3:4, 3:2 y 2:3, para satisfacer diversas demandas creativas.

💲 Precios de API

El precio de la API HunyuanImage 3.0 se establece en 0,105 dólares por megapíxel.

🎯 Casos de uso

🖼️ Imágenes de marketing y publicidad que requieren calidad fotorrealista.
🎨 Exploración artística diversa: acuarela, pintura al óleo, anime, surrealismo, cyberpunk y más.
👤 Diseño de personajes y fotogramas de animación con detalles expresivos.
📚 Material visual y cómics educativos con una excelente coherencia textual.
🏗️ Prototipado visual para diseño de productos y gemelos digitales.

⚖️ Comparación con otros modelos

vs Seedream 4.0: HunyuanImage 3.0 opera a mayor escala con 80 mil millones de parámetros gracias a su arquitectura Mixture of Experts, superando los aproximadamente 50 mil millones de parámetros de Seedream 4.0. HunyuanImage también ofrece una compatibilidad más fluida con indicaciones en chino e inglés, mientras que Seedream se centra principalmente en el inglés. Si bien ambos modelos ofrecen imágenes de alta fidelidad, HunyuanImage demuestra una mayor precisión en las indicaciones y una compatibilidad integral con múltiples relaciones de aspecto.

vs Imagen Flash de Gemini 2.5: El modelo MoE a gran escala de HunyuanImage 3.0 está diseñado para generar imágenes hiperrealistas y una amplia gama de estilos artísticos. Gemini 2.5, por el contrario, tiende a generar resultados más artísticos y estilizados, y tiene un tamaño de parámetros menor (~30 B). HunyuanImage ofrece mayor versatilidad en diversos casos de uso gracias a su capacidad de entrada en dos idiomas y opciones de resolución flexibles, brindando una libertad creativa más completa en comparación con modelos con opciones de idioma y relación de aspecto más limitadas.

vs GPT-Imagen: Ambos modelos utilizan arquitecturas de difusión, pero HunyuanImage 3.0 integra de forma exclusiva una amplia arquitectura multimodal MoE LLM, lo que mejora significativamente la alineación entre texto e imagen. GPT-Image suele producir imágenes de calidad general con una fidelidad moderada a las indicaciones. En cambio, HunyuanImage optimiza sistemáticamente las indicaciones y emplea un proceso de dos etapas para mejorar la claridad y el detalle. Además, HunyuanImage admite indicaciones multilingües y múltiples relaciones de aspecto, lo que amplía considerablemente las posibilidades creativas más allá de los formatos de salida más básicos de GPT-Image.

🔌 Integración de API

HunyuanImage 3.0 es fácilmente accesible a través de la API de IA/ML. La documentación completa se puede encontrar disponible aquí.

❓ Preguntas frecuentes

P: ¿Cómo beneficia la arquitectura MoE de HunyuanImage 3.0 a la generación de imágenes?

A: La arquitectura Mixture-of-Experts (MoE) de HunyuanImage 3.0 permite una escalabilidad eficiente con 80 mil millones de parámetros, activando solo 13 mil millones por token. Este diseño optimiza el costo computacional y mejora la capacidad del modelo para aprender características visuales complejas y estilos diversos, lo que resulta en imágenes de mayor calidad y más detalladas.

P: ¿Puede HunyuanImage 3.0 generar imágenes con estilos artísticos específicos?

A: Sí, HunyuanImage 3.0 destaca por generar una amplia gama de estilos artísticos, incluyendo fotografías hiperrealistas, acuarelas, pinturas al óleo, anime, surrealismo y cyberpunk, entre otros. Su avanzado transformador de difusión y sus extensos datos de entrenamiento le permiten adaptarse eficazmente a diversas indicaciones estilísticas.

P: ¿Qué hace que HunyuanImage 3.0 sea particularmente fuerte en la compatibilidad con indicaciones en varios idiomas?

A: HunyuanImage 3.0 incorpora procesamiento sensible a los caracteres y un sistema de doble codificador mejorado que integra estrechamente los codificadores de visión y texto. Esto permite una comprensión semántica y una alineación superiores tanto para las indicaciones en chino como en inglés, lo que garantiza que las entradas multilingües se interpreten con precisión y se reflejen fielmente en las imágenes generadas.

Campo de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.

Pruébalo gratis

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos

Fichas de $1 gratis para nuevos miembros