



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'nvidia/nemotron-nano-12b-v2-vl',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="nvidia/nemotron-nano-12b-v2-vl",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Produktdetails
Nemotron Nano 12B V2 VL NVIDIAs hochmodernes, offenes multimodales Bildverarbeitungs- und Sprachmodell mit 12 Milliarden Parametern wurde sorgfältig für herausragende Leistungen in den Bereichen Videoanalyse, komplexe Dokumentenverarbeitung mit mehreren Bildern und differenzierte Generierung natürlicher Sprachausgabe entwickelt. Es nutzt eine neuartige Technologie. Hybrid-Transformer-Mamba-ArchitekturEs vereint die hohe Genauigkeit von Transformatoren mit der speichereffizienten Sequenzmodellierung von Mamba. Dieses innovative Design ermöglicht einen schnellen Durchsatz und geringe Latenzzeiten bei der Inferenz und eignet sich daher optimal für anspruchsvolle Aufgaben mit umfangreichen Text- und Bilddaten, insbesondere für lange Dokumente und Videos.
🚀 Technische Spezifikationen
- • Modellgröße: 12,6 Milliarden Parameter
- • Architektur: Hybrid Transformer-Mamba Sequenzmodell
- • Kontextfenster: Extrem lang, unterstützt bis zu 128.000 Token
- • Eingabemodalitäten: Text, Dokumente mit mehreren Bildern, Videoframes
✨ Leistungsbenchmarks
- OCRBench v2: Erreicht höchste Genauigkeit bei der optischen Zeichenerkennung für überlegene Aufgaben im Dokumentenverständnis.
- Multimodales Denken: Kann eine beeindruckende Durchschnittspunktzahl von ≈74 in wichtigen Benchmarks wie MMMU, MathVista, AI2D, ChartQA, DocVQA und Video-MME vorweisen.
- Videoverständnis: Verbessert durch Efficient Video Sampling (EVS), wodurch die Verarbeitung von Langvideos bei deutlich reduzierten Inferenzkosten ermöglicht wird.
- Mehrsprachige Genauigkeit: Bietet eine robuste Leistung über verschiedene Sprachen hinweg und gewährleistet so eine starke visuelle Beantwortung von Fragen sowie eine präzise Dokumentenanalyse weltweit.
💡 Hauptmerkmale
- ✅ VL-Inferenz mit niedriger Latenz: Optimiert für besonders schnelles, hocheffizientes Schließen mit kombinierten Text- und Bilddaten.
- ✅ Effiziente Langzeitkontextverarbeitung: Dank innovativer Token-Reduktionstechniken ist es in der Lage, umfangreiche Videos und Dokumente mit bis zu 128.000 Tokens zu verarbeiten.
- ✅ Verständnis mehrerer Bilder und Videos: Ermöglicht die gleichzeitige Analyse mehrerer Bilder und Videoframes zur umfassenden Szeneninterpretation und -zusammenfassung.
- ✅ Unterstützung für hochauflösende und breite Layouts: Verarbeitet gekonnt Kachelbilder und Panorama-Eingaben und eignet sich daher ideal für Diagramme, Formulare und komplexe visuelle Dokumente.
- ✅ Multimodale Abfragen: Unterstützt fortgeschrittene visuelle Fragebeantwortung, Dokumentendatenextraktion, mehrstufiges Schlussfolgern und dichte Untertitelung in mehreren Sprachen.
- ✅ Hybrid Transformer-Mamba-Architektur: Es vereint gekonnt die hohe Genauigkeit traditioneller Transformatoren mit der Speichereffizienz von Mamba und verbessert so die Skalierbarkeit der Inferenz.
💲 Nemotron Nano 12B V2 VL API-Preisgestaltung
Eingang: 0,22155 $ / 1 Mio. Token
Ausgabe: 0,66465 $ / 1 Mio. Token
🎯 Wichtigste Anwendungsfälle
- • Dokumentenintelligenz: Automatisierte Extraktion und Analyse komplexer Dokumente wie Rechnungen, Verträge, Quittungen und Handbücher mit hoher Präzision.
- • Visuelles Frage-Antwort-System (VQA): Fragen Sie komplexe Bilder, Diagramme oder Videoszenen ab, um detaillierte und genaue Antworten zu erhalten.
- • Videoanalyse: Führt umfassende Zusammenfassungen, Aktionserkennungen und Szenenanalysen für längere Videoinhalte durch.
- • Datenanalyse und Berichtswesen: Automatische Generierung strukturierter Berichte mit hoher Genauigkeit aus vielfältigen multimodalen Dateneingaben.
- • Medien-Asset-Management: Ermöglichen Sie eine dichte Untertitelung und umfassende Indexierung für Videoinhalte und umfangreiche Multimedia-Bibliotheken.
- • Sprachübergreifende multimodale Aufgaben: Nahtlose Verarbeitung vielfältiger Spracheingaben in Kombination mit Bildern für breite globale Anwendungen.
💻 Codebeispiel
Hinweis: Der obige Codeausschnitt ist ein Platzhalter und wird von Ihrer Plattform dynamisch gerendert.
🆚 Vergleich mit anderen führenden Modellen
Nemotron Nano 12B V2 VL vs. Qwen3 32B VL: Nemotron zeigt überlegene Leistung in OCR- und Video-BenchmarksDadurch eignet es sich optimal für Echtzeitanwendungen. Qwen3 hingegen legt Wert auf eine breitere Vielseitigkeit bei verschiedenen Aufgaben.
Nemotron Nano 12B V2 VL vs. LAVA-1.5: Während LLaVA-1.5 ein wettbewerbsfähiges Forschungsmodell ist, das für seine innovative multimodale Instruktionsoptimierung bekannt ist, übertrifft Nemotron Nano 12B V2 VL es in folgenden Bereichen: Dokumentenintelligenz, OCR und erweiterte Videoanalyse durch den Einsatz spezieller Bildcodierer und effizienter Videoabtastverfahren.
Nemotron Nano 12B V2 VL vs. Eagle 2.5: Obwohl Eagle 2.5 im Bereich der allgemeinen visuellen Fragebeantwortung stark ist, bietet Nemotron spezialisiertere Funktionen in Diagrammanalyse, Verständnis komplexer Dokumente und umfassendes VideoverständnisDie
Nemotron Nano 12B V2 VL vs. InternVL 14B V2: Nemotrons einzigartige Hybrid-Mamba-Transformer-Architektur erzielt signifikante Verbesserungen höherer Durchsatz bei Aufgaben mit langem Kontextund positioniert es damit als eine besser geeignete Wahl für KI-Agenten in Echtzeit, die dichte visuelle und textuelle Daten verarbeiten.
❓ Häufig gestellte Fragen (FAQ)
A: Es handelt sich um NVIDIAs offenes multimodales Bildverarbeitungs- und Sprachmodell mit 12 Milliarden Parametern, das sich durch hervorragende Videoanalyse und Dokumenteninterpretation auszeichnet. Die Kerninnovation ist eine hybride Transformer-Mamba-Architektur, die Genauigkeit und Speichereffizienz für latenzarme Inferenz in Einklang bringt.
A: Es unterstützt ein extrem langes Kontextfenster von bis zu 128.000 Tokens, kombiniert mit Efficient Video Sampling (EVS) und innovativen Token-Reduktionstechniken, um umfangreiche Inhalte effizient und kostengünstig zu verarbeiten.
A: Zu den wichtigsten Anwendungsbereichen gehören Dokumentenanalyse, visuelle Fragebeantwortung (VQA), Videoanalyse, Datenanalyse und Berichtswesen, Medien-Asset-Management sowie mehrsprachige multimodale Aufgaben.
A: Der Nemotron Nano 12B V2 VL erzielt eine führende Genauigkeit im OCRBench v2 für das Dokumentenverständnis und einen durchschnittlichen multimodalen Reasoning-Score von ≈74 über verschiedene Benchmarks wie MMMU, MathVista und DocVQA.
KI-Spielplatz



Einloggen