



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'nvidia/nemotron-nano-12b-v2-vl',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="nvidia/nemotron-nano-12b-v2-vl",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

产品详情
Nemotron Nano 12B V2 VL 是 NVIDIA 最先进的 120 亿参数开放式多模态视觉语言模型,经过精心设计,可在视频理解、复杂的多图像文档推理和细致入微的自然语言输出生成方面实现卓越性能。它利用了一种新型技术 混合型 Transformer-Mamba 架构它完美地平衡了Transformer的高精度特性和Mamba的内存高效序列建模特性。这种创新设计实现了快速吞吐量和低延迟推理,使其非常适合处理涉及大量文本和图像的高要求任务,尤其适用于长篇文档和视频。
🚀 技术规格
- • 型号尺寸: 126亿个参数
- • 建筑学: 混合Transformer-Mamba序列模型
- • 上下文窗口: 超长合约,最多支持 128,000 个Tokens
- • 输入方式: 文本、多图像文档、视频帧
✨ 性能基准测试
- OCRBench v2: 在光学字符识别方面达到领先精度,可出色地完成文档理解任务。
- 多模态推理: 在包括 MMMU、MathVista、AI2D、ChartQA、DocVQA 和 Video-MME 在内的关键基准测试中,平均得分高达 ≈74 分。
- 视频理解: 通过高效视频采样 (EVS) 技术增强,能够以显著降低的推理成本进行长视频处理。
- 多语言准确性: 在全球范围内提供强大的跨语言性能,确保强大的可视化问答和精确的文档解析。
💡 主要特点
- ✅ 低延迟视频语言推理: 针对文本和图像数据的组合进行了优化,可实现极快、高吞吐量的推理。
- ✅ 高效的长上下文处理: 通过创新的令牌缩减技术,能够处理高达 128K 个令牌的大型视频和文档。
- ✅ 多图像和视频理解: 可同时分析多幅图像和视频帧,以进行全面的场景解释和总结。
- ✅ 支持高分辨率和宽版面布局: 能够专业地处理平铺图像和全景输入,使其成为图表、表单和复杂视觉文档的理想选择。
- ✅ 多模态查询: 支持高级视觉问答、文档数据提取、多步骤推理和多语言密集字幕。
- ✅ 混合型 Transformer-Mamba 架构: 巧妙地平衡了传统Transformer的高精度和Mamba的内存效率,增强了推理可扩展性。
💲 Nemotron Nano 12B V2 VL API 定价
输入: 0.22155 美元/100 万Tokens
输出: 0.66465 美元/100 万Tokens
🎯 主要用例
- • 文档智能: 自动高精度地提取和分析发票、合同、收据和手册等复杂文档。
- • 可视化问答(VQA): 查询复杂的图像、图表或视频场景,以获得详细准确的答案。
- • 视频分析: 对长视频内容进行全面的摘要、动作检测和场景理解。
- • 数据分析与报告: 从各种多模态数据输入中自动生成高精度结构化报告。
- • 媒体资产管理: 为视频内容和大型多媒体库启用密集字幕和全面索引。
- • 跨语言多模态任务: 无缝处理多种语言输入和图像,适用于广泛的全球应用。
💻 代码示例
注意:以上代码片段仅为占位符,将由您的平台动态渲染。
🆚 与其他领先型号的比较
Nemotron Nano 12B V2 VL 对比 Qwen3 32B VL: Nemotron 在以下方面表现出优异的性能 OCR和视频基准测试因此,它非常适合实时应用。而 Qwen3 则更注重跨任务的广泛通用性。
Nemotron Nano 12B V2 VL 对比 LAVA-1.5: 尽管 LLaVA-1.5 是一款以创新的多模态教学调整而闻名的竞争性研究模型,但 Nemotron Nano 12B V2 VL 在性能上优于它。 文档智能、OCR 和扩展视频推理 通过采用专用视觉编码器和高效的视频采样技术。
Nemotron Nano 12B V2 VL 对比 鹰2.5: 虽然 Eagle 2.5 在一般的视觉问答方面表现出色,但 Nemotron 提供了更专业的功能。 图表推理、复杂文档理解和全面的视频理解。
Nemotron Nano 12B V2 VL 对比 InternVL 14B V2: Nemotron独特的Mamba-Transformer混合主干网实现了显著的改进。 在长上下文任务上实现更高的吞吐量使其成为处理密集视觉和文本数据的实时人工智能代理的更合适选择。
❓ 常见问题解答 (FAQ)
答:这是英伟达的120亿参数开放式多模态视觉语言模型,在视频理解和文档推理方面表现出色。其核心创新在于混合Transformer-Mamba架构,该架构在准确性和内存效率之间取得了平衡,从而实现了低延迟推理。
答:它支持高达 128,000 个标记的超长上下文窗口,结合高效视频采样 (EVS) 和创新的标记缩减技术,能够高效且经济地处理冗长的内容。
答:主要应用包括文档智能、视觉问答(VQA)、视频分析、数据分析与报告、媒体资产管理以及跨语言多模态任务。
答:Nemotron Nano 12B V2 VL 在 OCRBench v2 文档理解测试中取得了领先的准确率,并且在 MMMU、MathVista 和 DocVQA 等各种基准测试中,平均多模态推理得分约为 74 分。



登录