



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'nvidia/nemotron-nano-9b-v2',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="nvidia/nemotron-nano-9b-v2",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")
- API 操练场(Playground)

在集成之前,请在沙箱环境中测试所有 API 模型。
我们提供超过 300 种模型供您集成到您的应用程序中。


产品详情
英伟达 Nemotron Nano 9B V2 是一款尖端的大型语言模型 (LLM),专为高效、高吞吐量的文本生成而设计。它尤其擅长处理复杂的推理任务,为开发者和企业提供强大的解决方案。通过利用创新技术, 混合型曼巴-Transformer架构该模型在快速推理速度、精确度和适中的资源消耗之间取得了最佳平衡,使其成为各种人工智能应用的有力选择。
✨ 主要技术规格
- • 建筑学: 混合曼巴-变形金刚
- • 参数数量: 90亿
- • 训练数据: 20万亿个Tokens,FP8训练精度
- • 上下文窗口: 131,072 个Tokens
🚀 无与伦比的性能基准
- • 推理准确率: 在 GSM8K、MATH、AIME、MMLU 和 GPQA 等关键基准测试中,达到或超过同等规模模型的性能。
- • 代码生成: 在 LiveCodeBench 测试中准确率高达 71.1%,并对 43 种不同的编程语言提供强大的支持。
- • 内存效率: 利用 INT4 量化技术,Nemotron Nano 9B V2 可以部署在仅需 22 GiB 内存的 GPU 上,同时还能保持对超大上下文窗口的支持。
💡核心功能与创新
- • 混合型曼巴-变压器架构: 这种创新设计将高效的 Mamba-2 状态空间层与选择性 Transformer 自注意力机制相结合,显著加快了长上下文推理速度,同时又不影响准确性。
- • 高吞吐量: 与类似规模的模型(例如 Qwen3-8B)相比,推理速度可提升高达 6 倍,尤其是在需要密集推理的场景中。
- • 长期上下文支持: 该功能能够在普通硬件上处理多达 128,000 个标记的序列,从而实现广泛的文档理解和复杂的多文档摘要。
💰 API 定价详情
- • 输入: 0.04431 美元/100 万Tokens
- • 输出: 0.17724 美元/100 万Tokens
🌟 Nemotron Nano 9B V2 的多种应用场景
- • 数学与科学推理: 非常适合高级辅导系统、复杂的难题解决和加速学术研究。
- • 人工智能代理系统: 非常适合在复杂的 AI 管道中开发可控的多步骤推理工作流程和高效的函数调用。
- • 企业客户支持: 为快速、准确、多语言的聊天机器人提供支持,具备高级推理能力和内容安全功能。
- • 文档摘要与分析: 能够高效处理海量文档或文档集,以进行深度研究和快速知识提取。
- • 代码开发与调试: 能够生成数十种编程语言的高精度代码,极大地帮助开发人员。
- • 内容审核: 使用专门的安全数据集进行训练,确保在敏感环境中输出可靠、高质量的结果。
💻 代码示例占位符
// Nemotron Nano 9B V2 的示例 API 调用
导入 openai
client = openai.OpenAI(api_key="YOUR_API_KEY")
response = client.chat.completions.create(
型号=“nvidia/nemotron-nano-9b-v2”,
messages=[
{"role": "用户", "content": "用简单易懂的方式解释Mamba架构。"}
],
max_tokens=150
)
print(response.choices[0].message.content)
🧠 Nemotron Nano 9B V2 与其他领先的 LLM 的比较
Nemotron Nano 9B V2 对比 Qwen3-8B
Nemotron Nano 9B V2 它采用了混合的 Mamba-Transformer 架构,用 Mamba-2 层替换了大部分自注意力层。这导致了以下结果: 推理速度提升高达 6 倍 在推理密集型任务中,它还支持在单个 GPU 上处理更长的上下文(128K 个标记),这与 Qwen3-8B 传统的 Transformer 设计通常较短的上下文窗口不同。
Nemotron Nano 9B V2 与 GPT-3.5 的比较
虽然 GPT-3.5 被广泛用于通用自然语言处理 (NLP) 任务,并拥有广泛的集成性, Nemotron Nano 9B V2 擅长高效的长上下文推理 以及多步骤问题解决能力。尤其是在NVIDIA硬件上部署时,它能提供卓越的吞吐量。
Nemotron Nano 9B V2 对比 Claude 2
Claude 2 注重安全意识和指令遵循,并具备全面的会话能力。相比之下, Nemotron Nano 9B V2 更侧重于数学/科学推理。 以及编码准确性,具有专用的可控推理预算功能。
Nemotron Nano 9B V2 与 PaLM 2 对比
PaLM 2 的目标是在广泛的 AI 基准测试和多语言任务中实现高精度,这通常需要更广泛的硬件资源。 Nemotron Nano 9B V2 占地面积小,部署便捷性极佳。它能够有效支持更长的上下文和更快的推理速度,尤其是在NVIDIA GPU架构上。这使其成为大规模企业或边缘应用的实用之选。
❓ 常见问题解答 (FAQ)
Q1:Nemotron Nano 9B V2是什么?
Nemotron Nano 9B V2 是 NVIDIA 最先进的大型语言模型 (LLM),专为高效、高吞吐量的文本生成而设计,尤其擅长复杂的推理任务。它采用独特的 Mamba-Transformer 混合架构。
Q2:它的主要性能优势是什么?
与类似模型相比,它在推理密集型任务中推理速度提高了 6 倍,在推理和代码生成方面具有卓越的准确性(在 LiveCodeBench 上达到 71.1%),并且内存效率令人印象深刻,仅需 22 GiB 内存即可部署在 GPU 上。
Q3:Nemotron Nano 9B V2 能否处理长文档?
是的,它支持 131,072 个标记的超长上下文窗口,能够在普通硬件上处理多达 128,000 个标记的序列,使其成为广泛文档理解和多文档摘要的理想选择。
Q4:该模型的主要应用场景是什么?
由于经过专门训练,其主要应用场景包括数学和科学推理、人工智能代理系统、企业客户支持、文档摘要和分析、高精度代码开发以及内容审核。
Q5:它的架构与传统的LLM有何不同?
Nemotron Nano 9B V2 采用独特的 Mamba-Transformer 混合架构,用高效的 Mamba-2 状态空间层取代了大部分自注意力层。这种设计对其加速长上下文推理和高吞吐量能力至关重要。



登录