131K

在

出去

聊天

禁用

Nemotron Nano 9B V2

它专为寻求快速推理且硬件开销最小的开发者和企业而设计，在聊天界面、内容增强和轻量级代理方面表现出色。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'nvidia/nemotron-nano-9b-v2',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="nvidia/nemotron-nano-9b-v2",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

Nemotron Nano 9B V2

产品详情

英伟达 Nemotron Nano 9B V2 是一款尖端的大型语言模型 (LLM)，专为高效、高吞吐量的文本生成而设计。它尤其擅长处理复杂的推理任务，为开发者和企业提供强大的解决方案。通过利用创新技术， 混合型曼巴-Transformer架构该模型在快速推理速度、精确度和适中的资源消耗之间取得了最佳平衡，使其成为各种人工智能应用的有力选择。

✨ 主要技术规格

• 建筑学： 混合曼巴-变形金刚
• 参数数量： 90亿
• 训练数据： 20万亿个Tokens，FP8训练精度
• 上下文窗口： 131,072 个Tokens

🚀 无与伦比的性能基准

• 推理准确率： 在 GSM8K、MATH、AIME、MMLU 和 GPQA 等关键基准测试中，达到或超过同等规模模型的性能。
• 代码生成： 在 LiveCodeBench 测试中准确率高达 71.1%，并对 43 种不同的编程语言提供强大的支持。
• 内存效率： 利用 INT4 量化技术，Nemotron Nano 9B V2 可以部署在仅需 22 GiB 内存的 GPU 上，同时还能保持对超大上下文窗口的支持。

💡核心功能与创新

• 混合型曼巴-变压器架构： 这种创新设计将高效的 Mamba-2 状态空间层与选择性 Transformer 自注意力机制相结合，显著加快了长上下文推理速度，同时又不影响准确性。
• 高吞吐量： 与类似规模的模型（例如 Qwen3-8B）相比，推理速度可提升高达 6 倍，尤其是在需要密集推理的场景中。
• 长期上下文支持： 该功能能够在普通硬件上处理多达 128,000 个标记的序列，从而实现广泛的文档理解和复杂的多文档摘要。

💰 API 定价详情

• 输入： 0.04431 美元/100 万Tokens
• 输出： 0.17724 美元/100 万Tokens

🌟 Nemotron Nano 9B V2 的多种应用场景

• 数学与科学推理： 非常适合高级辅导系统、复杂的难题解决和加速学术研究。
• 人工智能代理系统： 非常适合在复杂的 AI 管道中开发可控的多步骤推理工作流程和高效的函数调用。
• 企业客户支持： 为快速、准确、多语言的聊天机器人提供支持，具备高级推理能力和内容安全功能。
• 文档摘要与分析： 能够高效处理海量文档或文档集，以进行深度研究和快速知识提取。
• 代码开发与调试： 能够生成数十种编程语言的高精度代码，极大地帮助开发人员。
• 内容审核： 使用专门的安全数据集进行训练，确保在敏感环境中输出可靠、高质量的结果。

💻 代码示例占位符

// Nemotron Nano 9B V2 的示例 API 调用
导入 openai
client = openai.OpenAI(api_key="YOUR_API_KEY")
response = client.chat.completions.create(
 型号=“nvidia/nemotron-nano-9b-v2”，
 messages=[
 {"role": "用户", "content": "用简单易懂的方式解释Mamba架构。"}
 ],
 max_tokens=150
）
print(response.choices[0].message.content)

🧠 Nemotron Nano 9B V2 与其他领先的 LLM 的比较

Nemotron Nano 9B V2 对比 Qwen3-8B

Nemotron Nano 9B V2 它采用了混合的 Mamba-Transformer 架构，用 Mamba-2 层替换了大部分自注意力层。这导致了以下结果： 推理速度提升高达 6 倍 在推理密集型任务中，它还支持在单个 GPU 上处理更长的上下文（128K 个标记），这与 Qwen3-8B 传统的 Transformer 设计通常较短的上下文窗口不同。

Nemotron Nano 9B V2 与 GPT-3.5 的比较

虽然 GPT-3.5 被广泛用于通用自然语言处理 (NLP) 任务，并拥有广泛的集成性， Nemotron Nano 9B V2 擅长高效的长上下文推理 以及多步骤问题解决能力。尤其是在NVIDIA硬件上部署时，它能提供卓越的吞吐量。

Nemotron Nano 9B V2 对比 Claude 2

Claude 2 注重安全意识和指令遵循，并具备全面的会话能力。相比之下， Nemotron Nano 9B V2 更侧重于数学/科学推理。 以及编码准确性，具有专用的可控推理预算功能。

Nemotron Nano 9B V2 与 PaLM 2 对比

PaLM 2 的目标是在广泛的 AI 基准测试和多语言任务中实现高精度，这通常需要更广泛的硬件资源。 Nemotron Nano 9B V2 占地面积小，部署便捷性极佳。它能够有效支持更长的上下文和更快的推理速度，尤其是在NVIDIA GPU架构上。这使其成为大规模企业或边缘应用的实用之选。

❓ 常见问题解答 (FAQ)

Q1：Nemotron Nano 9B V2是什么？

Nemotron Nano 9B V2 是 NVIDIA 最先进的大型语言模型 (LLM)，专为高效、高吞吐量的文本生成而设计，尤其擅长复杂的推理任务。它采用独特的 Mamba-Transformer 混合架构。

Q2：它的主要性能优势是什么？

与类似模型相比，它在推理密集型任务中推理速度提高了 6 倍，在推理和代码生成方面具有卓越的准确性（在 LiveCodeBench 上达到 71.1%），并且内存效率令人印象深刻，仅需 22 GiB 内存即可部署在 GPU 上。

Q3：Nemotron Nano 9B V2 能否处理长文档？

是的，它支持 131,072 个标记的超长上下文窗口，能够在普通硬件上处理多达 128,000 个标记的序列，使其成为广泛文档理解和多文档摘要的理想选择。

Q4：该模型的主要应用场景是什么？

由于经过专门训练，其主要应用场景包括数学和科学推理、人工智能代理系统、企业客户支持、文档摘要和分析、高精度代码开发以及内容审核。

Q5：它的架构与传统的LLM有何不同？

Nemotron Nano 9B V2 采用独特的 Mamba-Transformer 混合架构，用高效的 Mamba-2 状态空间层取代了大部分自注意力层。这种设计对其加速长上下文推理和高吞吐量能力至关重要。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

一个 API
300多个人工智能模型

节省20%的费用