131 mil

Afuera

Charlar

desactivar

Nemotron Nano 12B V2 VL

Optimizado para una implementación de baja latencia, se destaca en reconocimiento óptico de caracteres (OCR), razonamiento de gráficos, comprensión de documentos y análisis de videos de formato largo.

Tokens gratis de $1 para nuevos miembros

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'nvidia/nemotron-nano-12b-v2-vl',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="nvidia/nemotron-nano-12b-v2-vl",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

Una API con más de 300 modelos de IA

Ahorre un 20% en costos y $1 en tokens gratis

Obtener clave API Explorar modelos

Nemotron Nano 12B V2 VL

Detalle del producto

Nemotron Nano 12B V2 VL es el modelo de visión-lenguaje multimodal abierto de vanguardia de NVIDIA con 12 mil millones de parámetros, diseñado meticulosamente para un rendimiento excepcional en la comprensión de video, el razonamiento complejo de documentos multiimagen y la generación de resultados de lenguaje natural con matices. Aprovechando una novedosa... Arquitectura híbrida Transformer-MambaCombina a la perfección la alta precisión de los transformadores con el modelado de secuencias de Mamba, que ahorra memoria. Este diseño innovador facilita un rápido rendimiento y una inferencia de baja latencia, lo que lo hace ideal para tareas exigentes que requieren texto e imágenes extensos, en particular documentos y vídeos extensos.

🚀 Especificaciones técnicas

• Tamaño del modelo: 12.6 mil millones de parámetros
• Arquitectura: Modelo de secuencia híbrido Transformer-Mamba
• Ventana de contexto: Ultralargo, admite hasta 128.000 tokens
• Modalidades de entrada: Texto, documentos con múltiples imágenes, fotogramas de vídeo

✨ Puntos de referencia de rendimiento

OCRBench versión 2: Logra una precisión líder en reconocimiento óptico de caracteres para tareas de comprensión superior de documentos.
Razonamiento multimodal: Cuenta con una puntuación promedio impresionante de ≈74 en puntos de referencia clave, incluidos MMMU, MathVista, AI2D, ChartQA, DocVQA y Video-MME.
Comprensión de video: Mejorado por el muestreo de video eficiente (EVS), que permite el procesamiento de video de formato largo con costos de inferencia significativamente reducidos.
Precisión multilingüe: Ofrece un rendimiento sólido en distintos idiomas, lo que garantiza una respuesta visual sólida a las preguntas y un análisis preciso de documentos a nivel mundial.

💡 Características principales

✅ Inferencia de VL de baja latencia: Optimizado para un razonamiento excepcionalmente rápido y de alto rendimiento en datos combinados de texto e imágenes.
✅ Procesamiento eficiente de contexto largo: Capaz de manejar videos y documentos extensos de hasta 128K tokens a través de innovadoras técnicas de reducción de tokens.
✅ Comprensión de múltiples imágenes y videos: Proporciona análisis simultáneo de múltiples imágenes y fotogramas de vídeo para una interpretación y resumen integral de la escena.
✅ Compatibilidad con alta resolución y diseño amplio: Procesa de manera experta imágenes en mosaico y entradas panorámicas, lo que lo hace ideal para gráficos, formularios y documentos visuales complejos.
✅ Consulta multimodal: Admite respuestas visuales a preguntas avanzadas, extracción de datos de documentos, razonamiento de varios pasos y subtítulos densos en varios idiomas.
✅ Arquitectura híbrida Transformer-Mamba: Equilibra hábilmente la alta precisión de los transformadores tradicionales con la eficiencia de memoria de Mamba, mejorando la escalabilidad de la inferencia.

Precios de la API de Nemotron Nano 12B V2 VL

Aporte: $0,22155 / 1 millón de tokens

Producción: $0,66465 / 1 millón de tokens

🎯 Casos de uso clave

• Inteligencia de documentos: Automatice la extracción y el análisis de documentos complejos como facturas, contratos, recibos y manuales con alta precisión.
• Respuesta visual a preguntas (VQA): Consulte imágenes complejas, gráficos o escenas de vídeo para recibir respuestas detalladas y precisas.
• Análisis de vídeo: Realice resúmenes completos, detección de acciones y comprensión de escenas para contenido de video de formato largo.
• Análisis de datos e informes: Genere automáticamente informes estructurados con alta precisión a partir de diversas entradas de datos multimodales.
• Gestión de activos multimedia: Habilite subtítulos densos e indexación integral para contenido de video y amplias bibliotecas multimedia.
• Tareas multimodales translingüísticas: Maneje sin problemas diversas entradas de idiomas combinadas con imágenes para amplias aplicaciones globales.

Ejemplo de código

Nota: El fragmento de código anterior es un marcador de posición y su plataforma lo procesará dinámicamente.

🆚 Comparación con otros modelos líderes

Nemotron Nano 12B V2 VL frente a. Qwen3 32B VL: Nemotron demuestra un rendimiento superior en Puntos de referencia de OCR y vídeo, lo que lo hace ideal para aplicaciones en tiempo real. Qwen3, por otro lado, prioriza una mayor versatilidad en todas las tareas.

Nemotron Nano 12B V2 VL frente a. LAVA-1.5: Si bien LLaVA-1.5 es un modelo de investigación competitivo conocido por su innovador ajuste de instrucciones multimodales, Nemotron Nano 12B V2 VL lo supera en Inteligencia de documentos, OCR y razonamiento de vídeo extendido mediante la incorporación de codificadores de visión dedicados y técnicas de muestreo de vídeo eficientes.

Nemotron Nano 12B V2 VL frente a. Águila 2.5: Aunque Eagle 2.5 es fuerte en la respuesta visual a preguntas generales, Nemotron ofrece capacidades más especializadas en Razonamiento de gráficos, comprensión de documentos complejos y comprensión integral de videos.

Nemotron Nano 12B V2 VL frente a. Pasante VL 14B V2: La exclusiva red híbrida Mamba-Transformer de Nemotron logra resultados significativos mayor rendimiento en tareas de contexto largo, posicionándolo como una opción más adecuada para agentes de IA en tiempo real que procesan datos visuales y de texto densos.

❓ Preguntas frecuentes (FAQ)

P: ¿Qué es Nemotron Nano 12B V2 VL y cuál es su principal innovación?

R: Es el modelo de visión-lenguaje multimodal abierto de NVIDIA con 12 mil millones de parámetros, que destaca en la comprensión de video y el razonamiento de documentos. Su principal innovación es una arquitectura híbrida Transformer-Mamba que equilibra la precisión con la eficiencia de la memoria para lograr una inferencia de baja latencia.

P: ¿Cómo maneja Nemotron Nano 12B V2 VL documentos y vídeos largos?

A: Admite una ventana de contexto ultralarga de hasta 128.000 tokens, combinada con muestreo de video eficiente (EVS) y técnicas innovadoras de reducción de tokens para procesar contenido extenso de manera eficiente y rentable.

P: ¿Cuáles son los principales casos de uso de este modelo?

R: Las aplicaciones clave incluyen inteligencia de documentos, respuesta visual a preguntas (VQA), análisis de video, análisis y generación de informes de datos, gestión de activos multimedia y tareas multimodales en varios idiomas.

P: ¿Cómo se compara su rendimiento en OCR y razonamiento multimodal?

A: Nemotron Nano 12B V2 VL logra una precisión líder en OCRBench v2 para la comprensión de documentos y un puntaje de razonamiento multimodal promedio de ≈74 en varios puntos de referencia como MMMU, MathVista y DocVQA.

Patio de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.

Pruébalo gratis

Una API
Más de 300 modelos de IA

Ahorre un 20% en costos