qwen-bg
ico máximo04
131 mil
En
Afuera
ico-máximo02
Charlar
ico-máximo03
desactivar
Nemotron Nano 12B V2 VL
Optimizado para implementaciones de baja latencia, destaca en el reconocimiento óptico de caracteres (OCR), el razonamiento gráfico, la comprensión de documentos y el análisis de vídeos de larga duración.
Fichas de $1 gratis para nuevos miembros
Text to Speech
                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'nvidia/nemotron-nano-12b-v2-vl',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();
                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="nvidia/nemotron-nano-12b-v2-vl",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")
Docs

Más de 300 modelos de IA para OpenClaw y agentes de IA

Ahorra un 20% en costes y obtén fichas gratis de 1 $.
qwenmax-bg
imagen
Nemotron Nano 12B V2 VL

Detalles del producto

Nemotron Nano 12B V2 VL es el modelo multimodal abierto de visión y lenguaje de última generación de NVIDIA, con 12 mil millones de parámetros, meticulosamente diseñado para un rendimiento excepcional en la comprensión de vídeo, el razonamiento complejo de documentos con múltiples imágenes y la generación de salida de lenguaje natural matizada. Aprovechando una novedosa Arquitectura híbrida Transformer-MambaCombina a la perfección la alta precisión característica de los transformadores con el modelado de secuencias de Mamba, que optimiza el uso de la memoria. Este diseño innovador facilita un procesamiento rápido y una inferencia de baja latencia, lo que lo hace ideal para tareas exigentes que implican gran cantidad de texto e imágenes, en particular documentos extensos y vídeos.

🚀 Especificaciones técnicas

  • Tamaño del modelo: 12.600 millones de parámetros
  • Arquitectura: Modelo de secuencia híbrido Transformer-Mamba
  • Ventana de contexto: Ultralarga duración, admite hasta 128.000 tokens.
  • Modalidades de entrada: Texto, documentos con varias imágenes, fotogramas de vídeo

✨ Pruebas de rendimiento

  • OCRBench v2: Logra una precisión líder en el reconocimiento óptico de caracteres para tareas superiores de comprensión de documentos.
  • Razonamiento multimodal: Cuenta con una impresionante puntuación media de ≈74 en pruebas de referencia clave, como MMMU, MathVista, AI2D, ChartQA, DocVQA y Video-MME.
  • Comprensión del vídeo: Mejorado mediante el muestreo de vídeo eficiente (EVS), que permite el procesamiento de vídeos de larga duración con costes de inferencia significativamente reducidos.
  • Precisión multilingüe: Ofrece un rendimiento sólido en diversos idiomas, lo que garantiza una respuesta visual eficaz a las preguntas y un análisis preciso de los documentos a nivel global.

💡 Características principales

  • Inferencia VL de baja latencia: Optimizado para un razonamiento excepcionalmente rápido y de alto rendimiento sobre datos combinados de texto e imagen.
  • Procesamiento eficiente de contextos extensos: Capaz de procesar vídeos y documentos extensos de hasta 128.000 tokens mediante técnicas innovadoras de reducción de tokens.
  • Comprensión de múltiples imágenes y vídeos: Proporciona un análisis simultáneo de múltiples imágenes y fotogramas de vídeo para una interpretación y un resumen exhaustivos de la escena.
  • Compatibilidad con diseños de alta resolución y gran formato: Procesa con precisión imágenes en mosaico y entradas panorámicas, lo que lo hace ideal para gráficos, formularios y documentos visuales complejos.
  • Consulta multimodal: Admite la respuesta visual avanzada a preguntas, la extracción de datos de documentos, el razonamiento en varios pasos y la generación de subtítulos densos en varios idiomas.
  • Arquitectura híbrida Transformer-Mamba: Combina hábilmente la alta precisión de los transformadores tradicionales con la eficiencia de memoria de Mamba, mejorando la escalabilidad de la inferencia.

💲 Precios de la API Nemotron Nano 12B V2 VL

Aporte: $0,22155 / 1 millón de tokens

Producción: $0,66465 / 1 millón de tokens

🎯 Casos de uso clave

  • Inteligencia documental: Automatice la extracción y el análisis de documentos complejos como facturas, contratos, recibos y manuales con alta precisión.
  • Sistema de respuesta a preguntas visuales (VQA): Consulta imágenes complejas, gráficos o escenas de vídeo para obtener respuestas detalladas y precisas.
  • Análisis de vídeo: Realiza resúmenes completos, detección de acciones y comprensión de escenas para contenido de vídeo de larga duración.
  • Análisis e informes de datos: Genera automáticamente informes estructurados con alta precisión a partir de diversas fuentes de datos multimodales.
  • Gestión de activos multimedia: Permite la generación de subtítulos densos y la indexación completa para contenido de vídeo y extensas bibliotecas multimedia.
  • Tareas multimodales interlingüísticas: Gestiona sin problemas entradas en diversos idiomas combinadas con imágenes para aplicaciones globales de amplio alcance.

💻 Ejemplo de código

Nota: El fragmento de código anterior es un marcador de posición y será renderizado dinámicamente por su plataforma.

🆚 Comparación con otros modelos líderes

Nemotron Nano 12B V2 VL vs. Qwen3 32B VL: Nemotron demuestra un rendimiento superior en Pruebas comparativas de OCR y vídeolo que lo hace óptimo para aplicaciones en tiempo real. Qwen3, por otro lado, prioriza una mayor versatilidad en diversas tareas.

Nemotron Nano 12B V2 VL vs. LAVA-1.5: Si bien LLaVA-1.5 es un modelo de investigación competitivo conocido por su innovadora sintonización de instrucciones multimodales, Nemotron Nano 12B V2 VL lo supera en Inteligencia documental, OCR y razonamiento de vídeo avanzado. mediante la incorporación de codificadores de visión específicos y técnicas eficientes de muestreo de vídeo.

Nemotron Nano 12B V2 VL vs. Águila 2.5: Aunque Eagle 2.5 es fuerte en la respuesta general a preguntas visuales, Nemotron ofrece capacidades más especializadas en razonamiento gráfico, comprensión de documentos complejos y comprensión integral de vídeos..

Nemotron Nano 12B V2 VL vs. InternVL 14B V2: La exclusiva estructura híbrida Mamba-Transformer de Nemotron logra un rendimiento significativo. mayor rendimiento en tareas de contexto largoposicionándola como una opción más adecuada para agentes de IA en tiempo real que procesan datos visuales y de texto densos.

❓ Preguntas frecuentes (FAQ)

P: ¿Qué es Nemotron Nano 12B V2 VL y cuál es su principal innovación?

A: Se trata del modelo multimodal abierto de visión y lenguaje de NVIDIA, con 12 mil millones de parámetros, que destaca en la comprensión de vídeo y el razonamiento documental. Su principal innovación es una arquitectura híbrida Transformer-Mamba que equilibra la precisión con la eficiencia de la memoria para lograr una inferencia de baja latencia.

P: ¿Cómo maneja el Nemotron Nano 12B V2 VL los documentos y vídeos largos?

R: Admite una ventana de contexto ultralarga de hasta 128.000 tokens, combinada con el muestreo de vídeo eficiente (EVS) y técnicas innovadoras de reducción de tokens para procesar contenido extenso de manera eficiente y rentable.

P: ¿Cuáles son los principales casos de uso de este modelo?

A: Entre las aplicaciones clave se incluyen la inteligencia documental, la respuesta visual a preguntas (VQA), el análisis de vídeo, el análisis e informes de datos, la gestión de activos multimedia y las tareas multimodales multilingües.

P: ¿Cómo se compara su rendimiento en OCR y razonamiento multimodal?

A: Nemotron Nano 12B V2 VL logra una precisión líder en OCRBench v2 para la comprensión de documentos y una puntuación promedio de razonamiento multimodal de ≈74 en varios puntos de referencia como MMMU, MathVista y DocVQA.

Campo de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos