



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'nvidia/nemotron-nano-12b-v2-vl',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="nvidia/nemotron-nano-12b-v2-vl",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Détails du produit
Nemotron Nano 12B V2 VL Il s'agit du modèle de vision-langage multimodal ouvert de pointe de NVIDIA, doté de 12 milliards de paramètres et conçu avec une précision méticuleuse pour des performances exceptionnelles en matière de compréhension vidéo, de raisonnement sur des documents complexes multi-images et de génération de sortie en langage naturel nuancée. Tirant parti d'une approche novatrice architecture hybride Transformer-MambaIl combine parfaitement la haute précision des transformateurs et la modélisation séquentielle économe en mémoire de Mamba. Cette conception innovante favorise un débit élevé et une faible latence d'inférence, ce qui la rend idéale pour les tâches exigeantes impliquant de grands volumes de texte et d'images, notamment les documents longs et les vidéos.
🚀 Spécifications techniques
- • Taille du modèle : 12,6 milliards de paramètres
- • Architecture: Modèle de séquence hybride Transformer-Mamba
- • Fenêtre contextuelle : Ultra-long, supportant jusqu'à 128 000 jetons
- • Modalités d'entrée : Texte, documents multi-images, images vidéo
✨ Indicateurs de performance
- OCRBench v2 : Offre une précision de pointe en matière de reconnaissance optique de caractères pour des tâches de compréhension de documents supérieures.
- Raisonnement multimodal : Il affiche un score moyen impressionnant d'environ 74 sur les principaux benchmarks, notamment MMMU, MathVista, AI2D, ChartQA, DocVQA et Video-MME.
- Compréhension vidéo : Amélioré par l'échantillonnage vidéo efficace (EVS), permettant un traitement vidéo de longue durée avec des coûts d'inférence considérablement réduits.
- Précision multilingue : Offre des performances robustes dans diverses langues, garantissant une réponse visuelle efficace aux questions et une analyse précise des documents à l'échelle mondiale.
💡 Fonctionnalités clés
- ✅ Inférence VL à faible latence : Optimisé pour un raisonnement exceptionnellement rapide et à haut débit sur des données combinées de texte et d'images.
- ✅ Traitement efficace des contextes longs : Capable de gérer des vidéos et des documents volumineux jusqu'à 128 000 jetons grâce à des techniques innovantes de réduction de jetons.
- ✅ Compréhension multi-images et vidéo : Permet une analyse simultanée de plusieurs images et séquences vidéo pour une interprétation et un résumé complets de la scène.
- ✅ Prise en charge des écrans haute résolution et des mises en page larges : Il traite avec expertise les images mosaïques et les entrées panoramiques, ce qui le rend idéal pour les graphiques, les formulaires et les documents visuels complexes.
- ✅ Requêtes multimodales : Prend en charge la réponse visuelle avancée aux questions, l'extraction de données de documents, le raisonnement en plusieurs étapes et le sous-titrage dense dans plusieurs langues.
- ✅ Architecture hybride Transformer-Mamba : Il équilibre habilement la haute précision des transformateurs traditionnels avec l'efficacité de la mémoire de Mamba, améliorant ainsi l'évolutivité de l'inférence.
💲 Tarification de l'API Nemotron Nano 12B V2 VL
Saisir: 0,22155 $ / 1 million de jetons
Sortir: 0,66465 $ / 1 million de jetons
🎯 Principaux cas d'utilisation
- • Renseignements documentaires : Automatisez l'extraction et l'analyse de documents complexes tels que les factures, les contrats, les reçus et les manuels avec une grande précision.
- • Réponse visuelle aux questions (VQA) : Interrogez des images, des graphiques ou des scènes vidéo complexes pour obtenir des réponses détaillées et précises.
- • Analyse vidéo : Effectuer un résumé complet, une détection d'actions et une compréhension des scènes pour les contenus vidéo longs.
- • Analyse et reporting des données : Générez automatiquement des rapports structurés avec une grande précision à partir de diverses sources de données multimodales.
- • Gestion des actifs médias : Activer le sous-titrage dense et l'indexation complète pour le contenu vidéo et les vastes bibliothèques multimédias.
- • Tâches multimodales interlingues : Gérer de manière transparente des entrées linguistiques diverses combinées à des images pour de vastes applications mondiales.
💻 Exemple de code
Remarque : L’extrait de code ci-dessus est un exemple et sera interprété dynamiquement par votre plateforme.
🆚 Comparaison avec d'autres modèles leaders
Nemotron Nano 12B V2 VL vs. Qwen3 32B VL: Nemotron démontre des performances supérieures en Tests de performance OCR et vidéoCe qui le rend parfaitement adapté aux applications en temps réel. Qwen3, quant à lui, privilégie une plus grande polyvalence pour diverses tâches.
Nemotron Nano 12B V2 VL vs. LAVA-1.5: Bien que le LLaVA-1.5 soit un modèle de recherche compétitif reconnu pour son réglage multimodal innovant des instructions, le Nemotron Nano 12B V2 VL le surpasse en intelligence documentaire, OCR et raisonnement vidéo étendu en intégrant des encodeurs de vision dédiés et des techniques d'échantillonnage vidéo efficaces.
Nemotron Nano 12B V2 VL vs. Aigle 2.5: Bien qu'Eagle 2.5 soit performant en matière de réponse visuelle aux questions en général, Nemotron offre des fonctionnalités plus spécialisées dans raisonnement graphique, compréhension de documents complexes et compréhension vidéo globale.
Nemotron Nano 12B V2 VL vs. InternVL 14B V2: La structure hybride unique Mamba-Transformer de Nemotron permet d'obtenir des résultats significativement meilleurs. débit accru sur les tâches à contexte long, ce qui la positionne comme un choix plus approprié pour les agents d'IA en temps réel traitant des données visuelles et textuelles denses.
❓ Foire aux questions (FAQ)
A : Il s'agit du modèle de vision-langage multimodal ouvert de NVIDIA, doté de 12 milliards de paramètres et excellant dans la compréhension vidéo et le raisonnement documentaire. Son innovation majeure réside dans une architecture hybride Transformer-Mamba qui allie précision et efficacité mémoire pour une inférence à faible latence.
A: Il prend en charge une fenêtre de contexte ultra-longue allant jusqu'à 128 000 jetons, combinée à l'échantillonnage vidéo efficace (EVS) et à des techniques innovantes de réduction des jetons pour traiter un contenu long de manière efficace et rentable.
A: Les principales applications comprennent l'intelligence documentaire, la réponse visuelle aux questions (VQA), l'analyse vidéo, l'analyse et le reporting des données, la gestion des ressources multimédias et les tâches multimodales multilingues.
A: Nemotron Nano 12B V2 VL atteint une précision de pointe dans OCRBench v2 pour la compréhension de documents et un score de raisonnement multimodal moyen d'environ 74 sur divers benchmarks comme MMMU, MathVista et DocVQA.
Terrain de jeu de l'IA



Se connecter