qwen-bg
max-ico04
131 mil
Em
Fora
max-ico02
Bater papo
max-ico03
desativar
Nemotron Nano 12B V2 VL
Otimizada para implantação de baixa latência, ela se destaca no reconhecimento óptico de caracteres (OCR), raciocínio em gráficos, compreensão de documentos e análise de vídeos de longa duração.
Tokens de $1 grátis para novos membros
Text to Speech
                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'nvidia/nemotron-nano-12b-v2-vl',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();
                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="nvidia/nemotron-nano-12b-v2-vl",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")
Docs

Uma API com mais de 300 modelos de IA

Economize 20% nos custos e ganhe tokens grátis de $1.
qwenmax-bg
imagem
Nemotron Nano 12B V2 VL

Detalhes do produto

Nemotron Nano 12B V2 VL O NVIDIA Pro é um modelo de visão e linguagem multimodal aberto de última geração com 12 bilhões de parâmetros, meticulosamente projetado para desempenho excepcional em compreensão de vídeo, raciocínio complexo em documentos com múltiplas imagens e geração de saída em linguagem natural com nuances. Aproveitando uma nova abordagem inovadora, o NVIDIA Pro é um modelo de visão e linguagem multimodal de última geração com 12 bilhões de parâmetros, meticulosamente projetado para desempenho excepcional em compreensão de vídeo, raciocínio complexo em documentos com múltiplas imagens e geração de saída em linguagem natural com nuances. Arquitetura híbrida Transformer-MambaEle equilibra perfeitamente a alta precisão característica dos Transformers com a modelagem de sequências com uso eficiente de memória do Mamba. Esse design inovador facilita o processamento rápido e a inferência de baixa latência, tornando-o ideal para tarefas exigentes que envolvem grandes quantidades de texto e imagens, particularmente documentos longos e vídeos.

🚀 Especificações Técnicas

  • Tamanho do modelo: 12,6 bilhões de parâmetros
  • Arquitetura: Modelo de sequência híbrido Transformer-Mamba
  • Janela de contexto: Ultralongo, suporta até 128.000 tokens.
  • Modalidades de entrada: Texto, documentos com várias imagens, quadros de vídeo

✨ Indicadores de desempenho

  • OCRBench v2: Atinge precisão líder em reconhecimento óptico de caracteres para tarefas superiores de compreensão de documentos.
  • Raciocínio multimodal: Apresenta uma pontuação média impressionante de aproximadamente 74 em benchmarks importantes, incluindo MMMU, MathVista, AI2D, ChartQA, DocVQA e Video-MME.
  • Compreensão de vídeo: Aprimorado pela tecnologia Efficient Video Sampling (EVS), que permite o processamento de vídeos de longa duração com custos de inferência significativamente reduzidos.
  • Precisão multilíngue: Oferece desempenho robusto em diversos idiomas, garantindo respostas visuais eficazes a perguntas e análise precisa de documentos em todo o mundo.

💡 Principais Características

  • Inferência VL de baixa latência: Otimizado para raciocínio excepcionalmente rápido e de alto rendimento em dados combinados de texto e imagem.
  • Processamento eficiente de contexto longo: Capaz de processar vídeos e documentos extensos com até 128 mil tokens através de técnicas inovadoras de redução de tokens.
  • Compreensão de múltiplas imagens e vídeos: Permite a análise simultânea de múltiplas imagens e quadros de vídeo para uma interpretação e sumarização abrangentes da cena.
  • Suporte para layouts de alta resolução e formato amplo: Processa com maestria imagens em mosaico e entradas panorâmicas, sendo ideal para gráficos, formulários e documentos visuais complexos.
  • Consultas multimodais: Oferece suporte a recursos avançados de resposta a perguntas visuais, extração de dados de documentos, raciocínio em várias etapas e legendagem densa em diversos idiomas.
  • Arquitetura híbrida Transformer-Mamba: Equilibra habilmente a alta precisão dos transformadores tradicionais com a eficiência de memória do Mamba, aprimorando a escalabilidade da inferência.

💲 Preços da API Nemotron Nano 12B V2 VL

Entrada: US$ 0,22155 / 1 milhão de tokens

Saída: US$ 0,66465 / 1 milhão de tokens

🎯 Principais casos de uso

  • Inteligência de Documentos: Automatize a extração e análise de documentos complexos, como faturas, contratos, recibos e manuais, com alta precisão.
  • Resposta visual a perguntas (VQA): Consulte imagens, gráficos ou cenas de vídeo complexos para obter respostas detalhadas e precisas.
  • Análise de vídeo: Realize sumarização abrangente, detecção de ações e compreensão de cenas para conteúdo de vídeo de longa duração.
  • Análise e Relatórios de Dados: Gere automaticamente relatórios estruturados com alta precisão a partir de diversas entradas de dados multimodais.
  • Gestão de ativos de mídia: Habilite a legendagem densa e a indexação abrangente para conteúdo de vídeo e extensas bibliotecas multimídia.
  • Tarefas multimodais interlinguísticas: Lide perfeitamente com entradas em diversos idiomas combinadas com imagens para amplas aplicações globais.

💻 Exemplo de código

Observação: O trecho de código acima é um exemplo e será renderizado dinamicamente pela sua plataforma.

🆚 Comparação com outros modelos líderes

Nemotron Nano 12B V2 VL vs. Qwen3 32B VL: Nemotron demonstra desempenho superior em OCR e benchmarks de vídeo, tornando-o ideal para aplicações em tempo real. O Qwen3, por outro lado, prioriza uma versatilidade mais ampla em diversas tarefas.

Nemotron Nano 12B V2 VL vs. LAVA-1.5: Embora o LLaVA-1.5 seja um modelo de pesquisa competitivo conhecido por seu inovador ajuste de instruções multimodais, o Nemotron Nano 12B V2 VL o supera em desempenho. Inteligência de documentos, OCR e raciocínio de vídeo estendido. incorporando codificadores de visão dedicados e técnicas eficientes de amostragem de vídeo.

Nemotron Nano 12B V2 VL vs. Águia 2.5: Embora o Eagle 2.5 seja forte em respostas visuais a perguntas em geral, o Nemotron oferece recursos mais especializados em raciocínio baseado em gráficos, compreensão de documentos complexos e compreensão abrangente de vídeos..

Nemotron Nano 12B V2 VL vs. InternVL 14B V2: A estrutura híbrida exclusiva Mamba-Transformer do Nemotron alcança resultados significativamente melhores. maior produtividade em tarefas de contexto longo, posicionando-a como uma escolha mais adequada para agentes de IA em tempo real que processam dados visuais e textuais densos.

❓ Perguntas frequentes (FAQ)

P: O que é o Nemotron Nano 12B V2 VL e qual é a sua principal inovação?

A: É o modelo de visão-linguagem multimodal aberto da NVIDIA, com 12 bilhões de parâmetros, que se destaca na compreensão de vídeos e no raciocínio sobre documentos. Sua principal inovação é uma arquitetura híbrida Transformer-Mamba que equilibra precisão e eficiência de memória para inferência de baixa latência.

P: Como o Nemotron Nano 12B V2 VL lida com documentos e vídeos longos?

A: Ele suporta uma janela de contexto ultralonga de até 128.000 tokens, combinada com Amostragem de Vídeo Eficiente (EVS) e técnicas inovadoras de redução de tokens para processar conteúdo extenso de forma eficiente e econômica.

P: Quais são os principais casos de uso para este modelo?

A: As principais aplicações incluem inteligência de documentos, resposta visual a perguntas (VQA), análise de vídeo, análise e geração de relatórios de dados, gerenciamento de ativos de mídia e tarefas multimodais multilíngues.

P: Como se compara seu desempenho em OCR e raciocínio multimodal?

A: O Nemotron Nano 12B V2 VL alcança precisão líder no OCRBench v2 para compreensão de documentos e uma pontuação média de raciocínio multimodal de ≈74 em vários benchmarks como MMMU, MathVista e DocVQA.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.
Experimente grátis
api-right-1
modelo-bg02-1

Uma API
Mais de 300 modelos de IA

Economize 20% nos custos