



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'qwen/qwen-2.5-vl-7b-instruct',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="qwen/qwen-2.5-vl-7b-instruct",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Détails du produit
Qwen2.5 VL 7B Instruct : Une solution d'IA multimodale de pointe
Instructions Qwen2.5 VL 7B Ce modèle d'IA multimodal avancé a été conçu avec précision pour les tâches basées sur des instructions, intégrant harmonieusement les entrées textuelles et visuelles. Il offre des capacités exceptionnelles de compréhension et de raisonnement à travers des images variées et des documents complexes, fournissant une solution polyvalente et robuste pour une reconnaissance de texte précise et des interactions dynamiques et multimodales. Ce modèle permet aux développeurs de créer des applications intelligentes qui comblent le fossé entre le langage humain et l'information visuelle.
⚙️ Spécifications techniques
- Taille du modèle : 7 milliards de paramètres
- Architecture: Cadre multimodal avancé basé sur Transformer
- Modalités : Texte, image
- Langues : Principalement en anglais, avec une prise en charge étendue de la reconnaissance de texte multilingue
- Types d'entrée : Des invites textuelles flexibles, ainsi que divers formats d'image (optimisés pour la reconnaissance optique de caractères et le raisonnement visuel)
- Fenêtre contextuelle : 32 768 jetons généreux
- Types de sortie : Réponses textuelles riches, incluant du contenu extrait et généré synthétiquement
📊 Performances impressionnantes
- DocVQA : 95,7% – Une précision de pointe dans la compréhension des documents.
- ChartQA : 87,3% – Solides compétences en analyse graphique.
- OCRBench : 86,4% – Reconnaissance optique de caractères extrêmement robuste.
- MMBench : 82,6% – Excellentes performances multimodales générales.
- MMMU : ~53,77% – Réalisé avec la quantification BF16, démontrant un raisonnement multidisciplinaire solide.
✨ Principales caractéristiques du manuel d'utilisation Qwen2.5 VL 7B
- ✅ OCR (reconnaissance optique de caractères) supérieure : Obtenez une extraction de texte précise et fiable, même à partir des images les plus complexes et des types de documents les plus divers.
- 🧠 Raisonnement visuel avancé : Ce modèle comprend en profondeur les informations spatiales et contextuelles des images, ce qui permet une meilleure compréhension des scènes et une analyse plus pertinente.
- 📄 Analyse intelligente des documents : Traiter efficacement et interpréter avec précision les mises en page de documents structurés et non structurés, rationalisant ainsi les flux d'information.
- 🔄 Gestion transparente des tâches en double modalité : Gérez sans effort les interactions complexes texte-texte et image-texte au sein de flux de travail exigeants basés sur des instructions.
- 🎯 Instructions optimisées pour la précision : Le modèle est finement paramétré pour suivre des instructions de tâche détaillées, ce qui améliore considérablement la pertinence, la précision et l'utilité globale de la réponse.
💰 Tarification de l'API Qwen2.5 VL 7B Instruct
Saisir: 0,21 $ par 1 000 jetons
Sortir: 0,21 $ par 1 000 jetons
🚀 Divers cas d'utilisation et applications
- Extraction automatisée des données : Révolutionnez la capture de données à partir de documents numérisés, de factures, de reçus et autres formulaires.
- Systèmes d'assurance qualité visuelle intelligents : Systèmes d'alimentation qui répondent avec précision aux questions à partir d'images ou d'une combinaison de texte et d'images.
- Flux de travail documentaires améliorés : Mettez en œuvre un système intelligent d'indexation des documents et de synthèse du contenu pour une gestion des connaissances et une efficacité opérationnelle supérieures.
- Technologies d'assistance : Développer des outils innovants pour les utilisateurs malvoyants en décrivant précisément le contenu visuel et en lisant à voix haute le texte affiché à l'écran.
- Assistance clientèle multilingue : Améliorez le service client global grâce à une reconnaissance avancée du contenu visuel et textuel, permettant des réponses intelligentes et multilingues.
💻 Exemple de code pour l'intégration d'API
Vous trouverez ci-dessous un extrait de code illustrant comment interagir avec l'API Instruct de Qwen2.5 VL 7B. Cet exemple permet aux développeurs d'intégrer rapidement des fonctionnalités multimodales à leurs applications.
import openai # Remplacez par votre URL de base et votre clé API client = openai.OpenAI( base_url="VOTRE_URL_DE_BASE_API_QWEN", api_key="VOTRE_CLÉ_API", ) try: response = client.chat.completions.create( model="qwen/qwen-2.5-vl-7b-instruct", messages=[ {"role": "user", "content": [ {"type": "text", "text": "Décrivez cette image en détail et extrayez tout texte présent."}, {"type": "image_url", "image_url": {"url": "https://example.com/your-image.jpg"}} ]} ], max_tokens=2048, # Ajustez selon vos besoins temperature=0.7, # Contrôlez la créativité ) print("Réponse de l'API :") print(response.choices[0].message.content) except openai.APIError as e: print(f"Une erreur API s'est produite : {e}") sauf Exception as e: print(f"Une erreur inattendue s'est produite : {e}") 🔍 Qwen2.5 VL 7B Instructions : Comparaisons de modèles concurrents
vs. GPT-4o Vision
Qwen2.5-VL-7B-Instruct propose Précision OCR très compétitive et raisonnement visuel robuste dans sa taille de paramètre de 7 milliards. Cela en fait un solution plus économique et plus rapide pour un déploiement rapide, notamment pour les tâches spécialisées. Bien que GPT-4o Vision excelle par ses capacités multimodales générales supérieures et sa prise en charge plus étendue des langues, il entraîne généralement des coûts opérationnels plus élevés et des vitesses d'inférence légèrement plus lentes en raison de sa plus grande échelle.
contre Claude 4 Vision
Claude 4 Vision est reconnu pour son puissante compréhension multimodale conversationnelle et des capacités de dialogue contextuel améliorées, bien que souvent au prix de coûts de calcul plus élevés. En revanche, Qwen2.5-VL-7B-Instruct excelle dans reconnaissance de documents structurés et raisonnement visuel, offrant des performances OCR performantes à un prix plus attractif, idéal pour les applications nécessitant le traitement de nombreux documents.
par rapport à DeepSeek V3.1
DeepSeek V3.1 se distingue par son efficacité en matière de compréhension vidéo et de tâches de recherche multimédia complexes. Qwen2.5-VL-7B-Instruct, en revanche, Optimisé spécifiquement pour la reconnaissance et le raisonnement sur des images statiques et du texte dans des documentsIl fournit Vitesses d'inférence plus rapides pour les tâches image-texte et précision OCR supérieures'imposant ainsi comme le choix privilégié pour les flux de travail axés sur les documents et exigeant à la fois précision et efficacité.
❓ Foire aux questions (FAQ)
Q1 : Quels sont les principaux atouts de Qwen2.5 VL 7B Instruct ?
A : Il excelle dans les tâches multimodales basées sur des instructions, offrant une reconnaissance optique de caractères (OCR) robuste, un raisonnement visuel avancé et une analyse documentaire efficace. Sa conception adaptée aux instructions garantit des réponses pertinentes et précises pour les entrées textuelles et visuelles.
Q2 : Comment ses performances se comparent-elles à celles des modèles multimodaux plus grands ?
A: Malgré sa taille de 7B paramètres, Qwen2.5 VL 7B Instruct offre une précision OCR compétitive et un raisonnement visuel solide, présentant souvent une alternative de déploiement plus rentable et plus rapide pour les tâches spécialisées par rapport aux modèles plus grands et plus généralistes.
Q3 : Quels types d’entrées et de sorties l’API prend-elle en charge ?
A : Elle accepte des invites textuelles et des images (pour la reconnaissance optique de caractères/le raisonnement visuel) comme entrées. L'API génère des réponses textuelles, qui peuvent inclure du texte extrait d'images ou du contenu généré synthétiquement à partir des instructions fournies.
Q4 : Qwen2.5 VL 7B Instruct convient-il aux applications multilingues ?
R : Oui, bien que son principal axe de développement soit l'anglais, il possède de solides capacités de reconnaissance de texte multilingue, ce qui en fait un choix viable pour des applications globales telles que le support client multilingue et le traitement de documents internationaux.
Q5 : Quels sont les secteurs ou les cas d'utilisation typiques qui bénéficient de ce modèle ?
A: Des secteurs tels que la finance (traitement des reçus/factures), la santé (analyse des documents médicaux), le commerce électronique (recherche visuelle de produits/assurance qualité) et le service client (assistance multimodale) peuvent grandement bénéficier de ses capacités en matière d'extraction de données, d'assurance qualité visuelle et de gestion intelligente des documents.
Terrain de jeu de l'IA



Se connecter