



const main = async () => {
const response = await fetch('https://api.ai.cc/v1/images/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'hunyuan/hunyuan-image-v3-text-to-image',
prompt: 'A jellyfish in the ocean',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main();
import requests
def main():
response = requests.post(
"https://api.ai.cc/v1/images/generations",
headers={
"Authorization": "Bearer ",
"Content-Type": "application/json",
},
json={
"model": "hunyuan/hunyuan-image-v3-text-to-image",
"prompt": "A jellyfish in the ocean",
},
)
response.raise_for_status()
data = response.json()
print("Generation:", data)
if __name__ == "__main__":
main()

Détails du produit
HunyuanImage 3.0 HunyuanImage 3.0 est le modèle natif de pointe de Tencent pour la génération d'images multimodales à partir de texte. Ce système avancé intègre une architecture de modèle de langage autorégressif de grande taille avec une génération d'images basée sur la diffusion, établissant de nouvelles références en matière de qualité d'image et d'alignement texte-image. Avec 80 milliards de paramètres et une conception basée sur un mélange d'experts (MoE), HunyuanImage 3.0 excelle dans la génération d'images hyperréalistes, extrêmement détaillées et stylistiquement diversifiées directement à partir de requêtes en langage naturel. Il offre une prise en charge robuste des requêtes en chinois et en anglais et propose des formats d'image flexibles, offrant ainsi aux créateurs de divers secteurs les moyens de s'exprimer pleinement.
✨ Spécifications techniques
- Type de modèle : Modèle de diffusion autorégressive multimodal natif avec une structure LLM MoE
- Paramètres : 80 milliards au total, 13 milliards actifs par jeton (MoE)
- Architecture: Mélange d'experts (64 experts), transformateur de diffusion amélioré, compression par auto-encodeur variationnel (VAE)
- Données d'entraînement : Entraîné sur 5 milliards de paires image-texte, enrichi d'images vidéo et de données multimodales entrelacées
- Modalités d'entrée : Messages textuels (chinois/anglais)
- Sortir: Images haute résolution, formats d'image flexibles
📈 Indicateurs de performance
- Comparaison avec les versions précédentes : Surpasse HunyuanImage 2.1 avec un taux de victoire relatif de 14,1 % lors d'une évaluation humaine professionnelle de la qualité d'image et de l'alignement du texte.
- Qualité d'image : Il produit des photos hyperréalistes, des illustrations détaillées et des styles artistiques variés avec une grande réactivité.
- Méthodologie d'évaluation : 1000 questions soigneusement sélectionnées et évaluées par plus de 100 évaluateurs humains professionnels utilisant le cadre Bon/Même/Mauvais (GSB) pour l'équité.
💡 Fonctionnalités clés
- ✅ Architecture du ministère de l'Éducation à grande échelle : Il comporte 80 milliards de paramètres au total, dont 13 milliards activés par jeton grâce à l'utilisation de 64 experts, ce qui permet d'équilibrer une capacité immense et une efficacité de calcul optimale.
- ✨ Architecture de diffusion révolutionnaire : Un transformateur de diffusion amélioré assure la génération d'images détaillées, cohérentes et à haute résolution.
- 🚀 PIED À Compression Avancée : Compresse efficacement les caractéristiques de l'image, réduisant ainsi les coûts de calcul tout en améliorant simultanément la fidélité visuelle.
- 🔗 Système à double encodeur amélioré : Intègre étroitement les encodeurs de vision et de texte pour une compréhension sémantique et un alignement supérieurs entre le texte et l'image.
- 🔧 Module d'amélioration des prompts : Affine automatiquement les invites utilisateur pour optimiser la qualité et la précision de la génération, garantissant ainsi de meilleurs résultats.
- 🌐 Prise en charge multilingue : Le traitement prenant en charge les caractères offre une assistance fluide pour les invites en chinois et en anglais.
- 📐 Formats d'image flexibles : Prend en charge différents formats, notamment 1:1, 16:9, 9:16, 4:3, 3:4, 3:2 et 2:3, afin de répondre à diverses exigences créatives.
💲 Tarification de l'API
Le prix de l'API HunyuanImage 3.0 est fixé à 0,105 $ par mégapixel.
🎯 Cas d'utilisation
- 🖼️ Visuels marketing et publicitaires nécessitant une qualité photoréaliste.
- 🎨 Exploration artistique diversifiée : aquarelle, peinture à l’huile, anime, surréalisme, cyberpunk et bien plus encore.
- 👤 Conception de personnages et images d'animation avec des détails expressifs.
- 📚 Supports visuels et bandes dessinées à vocation éducative, d'une grande cohérence textuelle.
- 🏗️ Prototypage visuel pour la conception de produits et les jumeaux numériques.
⚖️ Comparaison avec d'autres modèles
contre Seedream 4.0: HunyuanImage 3.0 fonctionne à plus grande échelle avec 80 milliards de paramètres grâce à son architecture Mixture of Experts, surpassant ainsi les quelque 50 milliards de paramètres de Seedream 4.0. HunyuanImage offre également une prise en charge plus fluide des invites en chinois et en anglais, tandis que Seedream se concentre principalement sur l'anglais. Bien que les deux modèles produisent des images haute fidélité, HunyuanImage se distingue par une meilleure adéquation aux invites et une prise en charge complète de plusieurs formats d'image.
contre Image flash Gemini 2.5: Le modèle MoE à grande échelle de HunyuanImage 3.0 est conçu pour générer des images hyperréalistes et une large palette de styles artistiques. Gemini 2.5, à l'inverse, privilégie des rendus plus artistiques et stylisés et possède un nombre de paramètres plus réduit (environ 30 octets). Grâce à ses capacités d'entrée bilingues et à ses options de résolution flexibles, HunyuanImage offre une plus grande polyvalence pour divers cas d'utilisation, permettant une liberté créative accrue par rapport aux modèles aux options de langue et de format d'image plus limitées.
vs GPT-Image : Les deux modèles utilisent des architectures de diffusion, mais HunyuanImage 3.0 intègre de manière unique une infrastructure LLM multimodale de grande envergure, améliorant considérablement l'alignement texte-image. GPT-Image produit généralement des images de qualité moyenne avec une adhésion modérée aux consignes. À l'inverse, HunyuanImage optimise systématiquement les consignes et utilise un pipeline en deux étapes pour améliorer la clarté et le niveau de détail. De plus, HunyuanImage prend en charge les consignes multilingues et plusieurs formats d'image, élargissant considérablement les possibilités créatives par rapport aux formats de sortie plus basiques de GPT-Image.
🔌 Intégration API
HunyuanImage 3.0 est facilement accessible via l'API IA/ML. Une documentation complète est disponible. disponible ici.
❓ Foire aux questions
Q : En quoi l'architecture MoE de HunyuanImage 3.0 améliore-t-elle la génération d'images ?
A : L'architecture Mixture-of-Experts (MoE) de HunyuanImage 3.0 permet une mise à l'échelle efficace avec 80 milliards de paramètres tout en n'activant que 13 milliards par jeton. Cette conception optimise le coût de calcul et améliore la capacité du modèle à apprendre des caractéristiques visuelles complexes et des styles variés, ce qui se traduit par des images de meilleure qualité et plus détaillées.
Q : HunyuanImage 3.0 peut-il générer des images avec des styles artistiques spécifiques ?
R : Oui, HunyuanImage 3.0 excelle dans la génération d'une vaste gamme de styles artistiques, notamment des photos hyperréalistes, des aquarelles, des peintures à l'huile, des animes, du surréalisme et du cyberpunk. Son transformateur de diffusion avancé et ses données d'entraînement exhaustives lui permettent de s'adapter efficacement à diverses consignes stylistiques.
Q : Qu'est-ce qui rend HunyuanImage 3.0 particulièrement performant en matière de prise en charge des invites multilingues ?
A: HunyuanImage 3.0 intègre un traitement sensible aux caractères et un système de double encodage amélioré qui combine étroitement vision et encodage de texte. Ceci permet une compréhension sémantique et un alignement optimaux pour les instructions en chinois et en anglais, garantissant ainsi une interprétation précise des entrées multilingues et leur reproduction fidèle dans les images générées.
Terrain de jeu de l'IA



Se connecter