



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'nvidia/nemotron-nano-12b-v2-vl',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="nvidia/nemotron-nano-12b-v2-vl",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Detalhes do produto
Nemotron Nano 12B V2 VL O NVIDIA Pro é um modelo de visão e linguagem multimodal aberto de última geração com 12 bilhões de parâmetros, meticulosamente projetado para desempenho excepcional em compreensão de vídeo, raciocínio complexo em documentos com múltiplas imagens e geração de saída em linguagem natural com nuances. Aproveitando uma nova abordagem inovadora, o NVIDIA Pro é um modelo de visão e linguagem multimodal de última geração com 12 bilhões de parâmetros, meticulosamente projetado para desempenho excepcional em compreensão de vídeo, raciocínio complexo em documentos com múltiplas imagens e geração de saída em linguagem natural com nuances. Arquitetura híbrida Transformer-MambaEle equilibra perfeitamente a alta precisão característica dos Transformers com a modelagem de sequências com uso eficiente de memória do Mamba. Esse design inovador facilita o processamento rápido e a inferência de baixa latência, tornando-o ideal para tarefas exigentes que envolvem grandes quantidades de texto e imagens, particularmente documentos longos e vídeos.
🚀 Especificações Técnicas
- • Tamanho do modelo: 12,6 bilhões de parâmetros
- • Arquitetura: Modelo de sequência híbrido Transformer-Mamba
- • Janela de contexto: Ultralongo, suporta até 128.000 tokens.
- • Modalidades de entrada: Texto, documentos com várias imagens, quadros de vídeo
✨ Indicadores de desempenho
- OCRBench v2: Atinge precisão líder em reconhecimento óptico de caracteres para tarefas superiores de compreensão de documentos.
- Raciocínio multimodal: Apresenta uma pontuação média impressionante de aproximadamente 74 em benchmarks importantes, incluindo MMMU, MathVista, AI2D, ChartQA, DocVQA e Video-MME.
- Compreensão de vídeo: Aprimorado pela tecnologia Efficient Video Sampling (EVS), que permite o processamento de vídeos de longa duração com custos de inferência significativamente reduzidos.
- Precisão multilíngue: Oferece desempenho robusto em diversos idiomas, garantindo respostas visuais eficazes a perguntas e análise precisa de documentos em todo o mundo.
💡 Principais Características
- ✅ Inferência VL de baixa latência: Otimizado para raciocínio excepcionalmente rápido e de alto rendimento em dados combinados de texto e imagem.
- ✅ Processamento eficiente de contexto longo: Capaz de processar vídeos e documentos extensos com até 128 mil tokens através de técnicas inovadoras de redução de tokens.
- ✅ Compreensão de múltiplas imagens e vídeos: Permite a análise simultânea de múltiplas imagens e quadros de vídeo para uma interpretação e sumarização abrangentes da cena.
- ✅ Suporte para layouts de alta resolução e formato amplo: Processa com maestria imagens em mosaico e entradas panorâmicas, sendo ideal para gráficos, formulários e documentos visuais complexos.
- ✅ Consultas multimodais: Oferece suporte a recursos avançados de resposta a perguntas visuais, extração de dados de documentos, raciocínio em várias etapas e legendagem densa em diversos idiomas.
- ✅ Arquitetura híbrida Transformer-Mamba: Equilibra habilmente a alta precisão dos transformadores tradicionais com a eficiência de memória do Mamba, aprimorando a escalabilidade da inferência.
💲 Preços da API Nemotron Nano 12B V2 VL
Entrada: US$ 0,22155 / 1 milhão de tokens
Saída: US$ 0,66465 / 1 milhão de tokens
🎯 Principais casos de uso
- • Inteligência de Documentos: Automatize a extração e análise de documentos complexos, como faturas, contratos, recibos e manuais, com alta precisão.
- • Resposta visual a perguntas (VQA): Consulte imagens, gráficos ou cenas de vídeo complexos para obter respostas detalhadas e precisas.
- • Análise de vídeo: Realize sumarização abrangente, detecção de ações e compreensão de cenas para conteúdo de vídeo de longa duração.
- • Análise e Relatórios de Dados: Gere automaticamente relatórios estruturados com alta precisão a partir de diversas entradas de dados multimodais.
- • Gestão de ativos de mídia: Habilite a legendagem densa e a indexação abrangente para conteúdo de vídeo e extensas bibliotecas multimídia.
- • Tarefas multimodais interlinguísticas: Lide perfeitamente com entradas em diversos idiomas combinadas com imagens para amplas aplicações globais.
💻 Exemplo de código
Observação: O trecho de código acima é um exemplo e será renderizado dinamicamente pela sua plataforma.
🆚 Comparação com outros modelos líderes
Nemotron Nano 12B V2 VL vs. Qwen3 32B VL: Nemotron demonstra desempenho superior em OCR e benchmarks de vídeo, tornando-o ideal para aplicações em tempo real. O Qwen3, por outro lado, prioriza uma versatilidade mais ampla em diversas tarefas.
Nemotron Nano 12B V2 VL vs. LAVA-1.5: Embora o LLaVA-1.5 seja um modelo de pesquisa competitivo conhecido por seu inovador ajuste de instruções multimodais, o Nemotron Nano 12B V2 VL o supera em desempenho. Inteligência de documentos, OCR e raciocínio de vídeo estendido. incorporando codificadores de visão dedicados e técnicas eficientes de amostragem de vídeo.
Nemotron Nano 12B V2 VL vs. Águia 2.5: Embora o Eagle 2.5 seja forte em respostas visuais a perguntas em geral, o Nemotron oferece recursos mais especializados em raciocínio baseado em gráficos, compreensão de documentos complexos e compreensão abrangente de vídeos..
Nemotron Nano 12B V2 VL vs. InternVL 14B V2: A estrutura híbrida exclusiva Mamba-Transformer do Nemotron alcança resultados significativamente melhores. maior produtividade em tarefas de contexto longo, posicionando-a como uma escolha mais adequada para agentes de IA em tempo real que processam dados visuais e textuais densos.
❓ Perguntas frequentes (FAQ)
A: É o modelo de visão-linguagem multimodal aberto da NVIDIA, com 12 bilhões de parâmetros, que se destaca na compreensão de vídeos e no raciocínio sobre documentos. Sua principal inovação é uma arquitetura híbrida Transformer-Mamba que equilibra precisão e eficiência de memória para inferência de baixa latência.
A: Ele suporta uma janela de contexto ultralonga de até 128.000 tokens, combinada com Amostragem de Vídeo Eficiente (EVS) e técnicas inovadoras de redução de tokens para processar conteúdo extenso de forma eficiente e econômica.
A: As principais aplicações incluem inteligência de documentos, resposta visual a perguntas (VQA), análise de vídeo, análise e geração de relatórios de dados, gerenciamento de ativos de mídia e tarefas multimodais multilíngues.
A: O Nemotron Nano 12B V2 VL alcança precisão líder no OCRBench v2 para compreensão de documentos e uma pontuação média de raciocínio multimodal de ≈74 em vários benchmarks como MMMU, MathVista e DocVQA.
Playground de IA



Conecte-se