131K

Aus

Chat

deaktivieren

Nemotron Nano 12B V2 VL

Es wurde für den Einsatz mit geringer Latenz optimiert und zeichnet sich durch seine Leistungsfähigkeit bei der optischen Zeichenerkennung (OCR), der Diagrammanalyse, dem Dokumentenverständnis und der Analyse von Langvideos aus.

Gratis-Tokens im Wert von 1 $ für neue Mitglieder

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'nvidia/nemotron-nano-12b-v2-vl',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="nvidia/nemotron-nano-12b-v2-vl",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

Über 300 KI-Modelle für OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten und erhalten Sie 1 $ gratis!

API-Schlüssel abrufen Modelle entdecken

Nemotron Nano 12B V2 VL

Produktdetails

Nemotron Nano 12B V2 VL NVIDIAs hochmodernes, offenes multimodales Bildverarbeitungs- und Sprachmodell mit 12 Milliarden Parametern wurde sorgfältig für herausragende Leistungen in den Bereichen Videoanalyse, komplexe Dokumentenverarbeitung mit mehreren Bildern und differenzierte Generierung natürlicher Sprachausgabe entwickelt. Es nutzt eine neuartige Technologie. Hybrid-Transformer-Mamba-ArchitekturEs vereint die hohe Genauigkeit von Transformatoren mit der speichereffizienten Sequenzmodellierung von Mamba. Dieses innovative Design ermöglicht einen schnellen Durchsatz und geringe Latenzzeiten bei der Inferenz und eignet sich daher optimal für anspruchsvolle Aufgaben mit umfangreichen Text- und Bilddaten, insbesondere für lange Dokumente und Videos.

🚀 Technische Spezifikationen

• Modellgröße: 12,6 Milliarden Parameter
• Architektur: Hybrid Transformer-Mamba Sequenzmodell
• Kontextfenster: Extrem lang, unterstützt bis zu 128.000 Token
• Eingabemodalitäten: Text, Dokumente mit mehreren Bildern, Videoframes

✨ Leistungsbenchmarks

OCRBench v2: Erreicht höchste Genauigkeit bei der optischen Zeichenerkennung für überlegene Aufgaben im Dokumentenverständnis.
Multimodales Denken: Kann eine beeindruckende Durchschnittspunktzahl von ≈74 in wichtigen Benchmarks wie MMMU, MathVista, AI2D, ChartQA, DocVQA und Video-MME vorweisen.
Videoverständnis: Verbessert durch Efficient Video Sampling (EVS), wodurch die Verarbeitung von Langvideos bei deutlich reduzierten Inferenzkosten ermöglicht wird.
Mehrsprachige Genauigkeit: Bietet eine robuste Leistung über verschiedene Sprachen hinweg und gewährleistet so eine starke visuelle Beantwortung von Fragen sowie eine präzise Dokumentenanalyse weltweit.

💡 Hauptmerkmale

✅ VL-Inferenz mit niedriger Latenz: Optimiert für besonders schnelles, hocheffizientes Schließen mit kombinierten Text- und Bilddaten.
✅ Effiziente Langzeitkontextverarbeitung: Dank innovativer Token-Reduktionstechniken ist es in der Lage, umfangreiche Videos und Dokumente mit bis zu 128.000 Tokens zu verarbeiten.
✅ Mehrbild- und Videoverständnis: Ermöglicht die gleichzeitige Analyse mehrerer Bilder und Videoframes zur umfassenden Szeneninterpretation und -zusammenfassung.
✅ Unterstützung für hochauflösende und breite Layouts: Verarbeitet gekonnt Kachelbilder und Panorama-Eingaben und eignet sich daher ideal für Diagramme, Formulare und komplexe visuelle Dokumente.
✅ Multimodale Abfragen: Unterstützt fortgeschrittene visuelle Fragebeantwortung, Dokumentendatenextraktion, mehrstufiges Schlussfolgern und dichte Untertitelung in mehreren Sprachen.
✅ Hybrid Transformer-Mamba-Architektur: Es vereint gekonnt die hohe Genauigkeit traditioneller Transformatoren mit der Speichereffizienz von Mamba und verbessert so die Skalierbarkeit der Inferenz.

💲 Nemotron Nano 12B V2 VL API-Preisgestaltung

Eingang: 0,22155 $ / 1 Mio. Token

Ausgabe: 0,66465 $ / 1 Mio. Token

🎯 Wichtigste Anwendungsfälle

• Dokumentenintelligenz: Automatisierte Extraktion und Analyse komplexer Dokumente wie Rechnungen, Verträge, Quittungen und Handbücher mit hoher Präzision.
• Visuelles Frage-Antwort-System (VQA): Fragen Sie komplexe Bilder, Diagramme oder Videoszenen ab, um detaillierte und genaue Antworten zu erhalten.
• Videoanalyse: Führt umfassende Zusammenfassungen, Aktionserkennungen und Szenenanalysen für längere Videoinhalte durch.
• Datenanalyse und Berichtswesen: Automatische Generierung strukturierter Berichte mit hoher Genauigkeit aus vielfältigen multimodalen Dateneingaben.
• Medien-Asset-Management: Ermöglichen Sie eine dichte Untertitelung und umfassende Indexierung für Videoinhalte und umfangreiche Multimedia-Bibliotheken.
• Sprachübergreifende multimodale Aufgaben: Nahtlose Verarbeitung vielfältiger Spracheingaben in Kombination mit Bildern für breite globale Anwendungen.

💻 Codebeispiel

Hinweis: Der obige Codeausschnitt ist ein Platzhalter und wird von Ihrer Plattform dynamisch gerendert.

🆚 Vergleich mit anderen führenden Modellen

Nemotron Nano 12B V2 VL vs. Qwen3 32B VL: Nemotron zeigt überlegene Leistung in OCR- und Video-BenchmarksDadurch eignet es sich optimal für Echtzeitanwendungen. Qwen3 hingegen legt Wert auf eine breitere Vielseitigkeit bei verschiedenen Aufgaben.

Nemotron Nano 12B V2 VL vs. LAVA-1.5: Während LLaVA-1.5 ein wettbewerbsfähiges Forschungsmodell ist, das für seine innovative multimodale Instruktionsoptimierung bekannt ist, übertrifft Nemotron Nano 12B V2 VL es in folgenden Punkten: Dokumentenintelligenz, OCR und erweiterte Videoanalyse durch den Einsatz spezieller Bildcodierer und effizienter Videoabtastverfahren.

Nemotron Nano 12B V2 VL vs. Eagle 2.5: Obwohl Eagle 2.5 im Bereich der allgemeinen visuellen Fragebeantwortung stark ist, bietet Nemotron spezialisiertere Funktionen in Diagrammanalyse, Verständnis komplexer Dokumente und umfassendes VideoverständnisDie

Nemotron Nano 12B V2 VL vs. InternVL 14B V2: Nemotrons einzigartige Hybrid-Mamba-Transformer-Architektur erzielt signifikante Verbesserungen höherer Durchsatz bei Aufgaben mit langem Kontextund positioniert es damit als eine besser geeignete Wahl für KI-Agenten in Echtzeit, die dichte visuelle und textuelle Daten verarbeiten.

❓ Häufig gestellte Fragen (FAQ)

F: Was ist Nemotron Nano 12B V2 VL und was ist seine Kerninnovation?

A: Es handelt sich um NVIDIAs offenes multimodales Bildverarbeitungs- und Sprachmodell mit 12 Milliarden Parametern, das sich durch hervorragende Videoanalyse und Dokumenteninterpretation auszeichnet. Die Kerninnovation ist eine hybride Transformer-Mamba-Architektur, die Genauigkeit und Speichereffizienz für latenzarme Inferenz in Einklang bringt.

F: Wie verarbeitet der Nemotron Nano 12B V2 VL lange Dokumente und Videos?

A: Es unterstützt ein extrem langes Kontextfenster von bis zu 128.000 Tokens, kombiniert mit Efficient Video Sampling (EVS) und innovativen Token-Reduktionstechniken, um umfangreiche Inhalte effizient und kostengünstig zu verarbeiten.

F: Was sind die wichtigsten Anwendungsfälle für dieses Modell?

A: Zu den wichtigsten Anwendungsbereichen gehören Dokumentenanalyse, visuelle Fragebeantwortung (VQA), Videoanalyse, Datenanalyse und Berichtswesen, Medien-Asset-Management sowie mehrsprachige multimodale Aufgaben.

F: Wie schneidet es im Vergleich bei OCR und multimodaler Argumentation ab?

A: Der Nemotron Nano 12B V2 VL erzielt eine führende Genauigkeit im OCRBench v2 für das Dokumentenverständnis und einen durchschnittlichen multimodalen Reasoning-Score von ≈74 über verschiedene Benchmarks wie MMMU, MathVista und DocVQA.

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.

Kostenlos testen

Mehr als 300 KI-Modelle für
OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten