131 mil

Fora

Bater papo

desativar

Nemotron Nano 12B V2 VL

Otimizada para implantação de baixa latência, ela se destaca no reconhecimento óptico de caracteres (OCR), raciocínio em gráficos, compreensão de documentos e análise de vídeos de longa duração.

Tokens de $1 grátis para novos membros

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'nvidia/nemotron-nano-12b-v2-vl',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="nvidia/nemotron-nano-12b-v2-vl",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

Uma API com mais de 300 modelos de IA

Economize 20% nos custos e ganhe tokens grátis de $1.

Obter chave de API Explorar modelos

Nemotron Nano 12B V2 VL

Detalhes do produto

Nemotron Nano 12B V2 VL O NVIDIA Pro é um modelo de visão e linguagem multimodal aberto de última geração com 12 bilhões de parâmetros, meticulosamente projetado para desempenho excepcional em compreensão de vídeo, raciocínio complexo em documentos com múltiplas imagens e geração de saída em linguagem natural com nuances. Aproveitando uma nova abordagem inovadora, o NVIDIA Pro é um modelo de visão e linguagem multimodal de última geração com 12 bilhões de parâmetros, meticulosamente projetado para desempenho excepcional em compreensão de vídeo, raciocínio complexo em documentos com múltiplas imagens e geração de saída em linguagem natural com nuances. Arquitetura híbrida Transformer-MambaEle equilibra perfeitamente a alta precisão característica dos Transformers com a modelagem de sequências com uso eficiente de memória do Mamba. Esse design inovador facilita o processamento rápido e a inferência de baixa latência, tornando-o ideal para tarefas exigentes que envolvem grandes quantidades de texto e imagens, particularmente documentos longos e vídeos.

🚀 Especificações Técnicas

• Tamanho do modelo: 12,6 bilhões de parâmetros
• Arquitetura: Modelo de sequência híbrido Transformer-Mamba
• Janela de contexto: Ultralongo, suporta até 128.000 tokens.
• Modalidades de entrada: Texto, documentos com várias imagens, quadros de vídeo

✨ Indicadores de desempenho

OCRBench v2: Atinge precisão líder em reconhecimento óptico de caracteres para tarefas superiores de compreensão de documentos.
Raciocínio multimodal: Apresenta uma pontuação média impressionante de aproximadamente 74 em benchmarks importantes, incluindo MMMU, MathVista, AI2D, ChartQA, DocVQA e Video-MME.
Compreensão de vídeo: Aprimorado pela tecnologia Efficient Video Sampling (EVS), que permite o processamento de vídeos de longa duração com custos de inferência significativamente reduzidos.
Precisão multilíngue: Oferece desempenho robusto em diversos idiomas, garantindo respostas visuais eficazes a perguntas e análise precisa de documentos em todo o mundo.

💡 Principais Características

✅ Inferência VL de baixa latência: Otimizado para raciocínio excepcionalmente rápido e de alto rendimento em dados combinados de texto e imagem.
✅ Processamento eficiente de contexto longo: Capaz de processar vídeos e documentos extensos com até 128 mil tokens através de técnicas inovadoras de redução de tokens.
✅ Compreensão de múltiplas imagens e vídeos: Permite a análise simultânea de múltiplas imagens e quadros de vídeo para uma interpretação e sumarização abrangentes da cena.
✅ Suporte para layouts de alta resolução e formato amplo: Processa com maestria imagens em mosaico e entradas panorâmicas, sendo ideal para gráficos, formulários e documentos visuais complexos.
✅ Consultas multimodais: Oferece suporte a recursos avançados de resposta a perguntas visuais, extração de dados de documentos, raciocínio em várias etapas e legendagem densa em diversos idiomas.
✅ Arquitetura híbrida Transformer-Mamba: Equilibra habilmente a alta precisão dos transformadores tradicionais com a eficiência de memória do Mamba, aprimorando a escalabilidade da inferência.

💲 Preços da API Nemotron Nano 12B V2 VL

Entrada: US$ 0,22155 / 1 milhão de tokens

Saída: US$ 0,66465 / 1 milhão de tokens

🎯 Principais casos de uso

• Inteligência de Documentos: Automatize a extração e análise de documentos complexos, como faturas, contratos, recibos e manuais, com alta precisão.
• Resposta visual a perguntas (VQA): Consulte imagens, gráficos ou cenas de vídeo complexos para obter respostas detalhadas e precisas.
• Análise de vídeo: Realize sumarização abrangente, detecção de ações e compreensão de cenas para conteúdo de vídeo de longa duração.
• Análise e Relatórios de Dados: Gere automaticamente relatórios estruturados com alta precisão a partir de diversas entradas de dados multimodais.
• Gestão de ativos de mídia: Habilite a legendagem densa e a indexação abrangente para conteúdo de vídeo e extensas bibliotecas multimídia.
• Tarefas multimodais interlinguísticas: Lide perfeitamente com entradas em diversos idiomas combinadas com imagens para amplas aplicações globais.

💻 Exemplo de código

Observação: O trecho de código acima é um exemplo e será renderizado dinamicamente pela sua plataforma.

🆚 Comparação com outros modelos líderes

Nemotron Nano 12B V2 VL vs. Qwen3 32B VL: Nemotron demonstra desempenho superior em OCR e benchmarks de vídeo, tornando-o ideal para aplicações em tempo real. O Qwen3, por outro lado, prioriza uma versatilidade mais ampla em diversas tarefas.

Nemotron Nano 12B V2 VL vs. LAVA-1.5: Embora o LLaVA-1.5 seja um modelo de pesquisa competitivo conhecido por seu inovador ajuste de instruções multimodais, o Nemotron Nano 12B V2 VL o supera em desempenho. Inteligência de documentos, OCR e raciocínio de vídeo estendido. incorporando codificadores de visão dedicados e técnicas eficientes de amostragem de vídeo.

Nemotron Nano 12B V2 VL vs. Águia 2.5: Embora o Eagle 2.5 seja forte em respostas visuais a perguntas em geral, o Nemotron oferece recursos mais especializados em raciocínio baseado em gráficos, compreensão de documentos complexos e compreensão abrangente de vídeos..

Nemotron Nano 12B V2 VL vs. InternVL 14B V2: A estrutura híbrida exclusiva Mamba-Transformer do Nemotron alcança resultados significativamente melhores. maior produtividade em tarefas de contexto longo, posicionando-a como uma escolha mais adequada para agentes de IA em tempo real que processam dados visuais e textuais densos.

❓ Perguntas frequentes (FAQ)

P: O que é o Nemotron Nano 12B V2 VL e qual é a sua principal inovação?

A: É o modelo de visão-linguagem multimodal aberto da NVIDIA, com 12 bilhões de parâmetros, que se destaca na compreensão de vídeos e no raciocínio sobre documentos. Sua principal inovação é uma arquitetura híbrida Transformer-Mamba que equilibra precisão e eficiência de memória para inferência de baixa latência.

P: Como o Nemotron Nano 12B V2 VL lida com documentos e vídeos longos?

A: Ele suporta uma janela de contexto ultralonga de até 128.000 tokens, combinada com Amostragem de Vídeo Eficiente (EVS) e técnicas inovadoras de redução de tokens para processar conteúdo extenso de forma eficiente e econômica.

P: Quais são os principais casos de uso para este modelo?

A: As principais aplicações incluem inteligência de documentos, resposta visual a perguntas (VQA), análise de vídeo, análise e geração de relatórios de dados, gerenciamento de ativos de mídia e tarefas multimodais multilíngues.

P: Como se compara seu desempenho em OCR e raciocínio multimodal?

A: O Nemotron Nano 12B V2 VL alcança precisão líder no OCRBench v2 para compreensão de documentos e uma pontuação média de raciocínio multimodal de ≈74 em vários benchmarks como MMMU, MathVista e DocVQA.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Experimente grátis

Uma API
Mais de 300 modelos de IA

Economize 20% nos custos