



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'nvidia/nemotron-nano-12b-v2-vl',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="nvidia/nemotron-nano-12b-v2-vl",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Подробная информация о товаре
Nemotron Nano 12B V2 VL NVIDIA — это передовая открытая многомодальная модель обработки изображений и языка с 12 миллиардами параметров, разработанная компанией NVIDIA для исключительной производительности в понимании видео, анализе сложных многоизобразных документов и генерации тонких выводов на естественном языке. В ней используется инновационный подход. гибридная архитектура Transformer-MambaБлагодаря этому, он идеально сочетает в себе высокую точность, характерную для трансформеров, с эффективным использованием памяти при моделировании последовательностей в Mamba. Эта инновационная конструкция обеспечивает высокую пропускную способность и низкую задержку при выполнении вычислений, что делает его оптимально подходящим для сложных задач, связанных с большим объемом текста и изображений, особенно с длинными документами и видео.
🚀 Технические характеристики
- • Размер модели: 12,6 миллиарда параметров
- • Архитектура: Гибридная модель последовательности Transformer-Mamba
- • Контекстное окно: Сверхдлинный, вмещает до 128 000 токенов.
- • Способы ввода: Текст, многокадровые документы, видеокадры
✨ Показатели производительности
- OCRBench v2: Обеспечивает высочайшую точность оптического распознавания символов для решения задач, требующих превосходного понимания документов.
- Мультимодальное рассуждение: Обладает впечатляющим средним баллом ≈74 по ключевым тестам, включая MMMU, MathVista, AI2D, ChartQA, DocVQA и Video-MME.
- Понимание видео: Благодаря использованию технологии эффективного сэмплирования видео (EVS) обеспечивается обработка видео длинных фрагментов со значительно сниженными затратами на вывод данных.
- Многоязычная точность: Обеспечивает высокую производительность на различных языках, гарантируя качественное визуальное отображение ответов на вопросы и точный анализ документов в глобальном масштабе.
💡 Основные характеристики
- ✅ Вывод видеосигнала с низкой задержкой: Оптимизировано для исключительно быстрой и высокопроизводительной обработки объединенных текстовых и графических данных.
- ✅ Эффективная обработка длинного контекста: Способна обрабатывать большие объемы видео и документов, содержащие до 128 000 токенов, благодаря инновационным методам сокращения количества токенов.
- ✅ Понимание нескольких изображений и видео: Обеспечивает одновременный анализ множества изображений и видеокадров для всесторонней интерпретации и обобщения сцены.
- ✅ Поддержка высокого разрешения и широкой компоновки: Программа профессионально обрабатывает мозаичные изображения и панорамные снимки, что делает ее идеальной для диаграмм, форм и сложных визуальных документов.
- ✅ Мультимодальные запросы: Поддерживает расширенные функции визуального ответа на вопросы, извлечение данных из документов, многоэтапное логическое мышление и создание подробных субтитров на нескольких языках.
- ✅ Гибридная архитектура трансформатора и «Мамбы»: Умело сочетает высокую точность традиционных трансформеров с эффективностью использования памяти Mamba, повышая масштабируемость вывода.
💲 Цены на Nemotron Nano 12B V2 VL API
Вход: 0,22155 долл. США / 1 млн токенов
Выход: 0,66465 долл. США / 1 млн токенов
🎯 Ключевые варианты использования
- • Анализ документов: Автоматизируйте извлечение и анализ сложных документов, таких как счета-фактуры, договоры, квитанции и руководства, с высокой точностью.
- • Визуальные ответы на вопросы (VQA): Запрашивайте сложные изображения, диаграммы или видеофрагменты, чтобы получать подробные и точные ответы.
- • Видеоаналитика: Выполняйте комплексное суммирование, распознавание действий и анализ сцен в видеороликах большого формата.
- • Анализ данных и составление отчетов: Автоматическое создание высокоточных структурированных отчетов на основе разнообразных многомодальных входных данных.
- • Управление медиаактивами: Обеспечьте наличие подробных субтитров и всестороннего индексирования для видеоконтента и обширных мультимедийных библиотек.
- • Межъязыковые мультимодальные задачи: Обеспечивает бесперебойную обработку входных данных на разных языках в сочетании с изображениями для широкого спектра глобальных приложений.
💻 Пример кода
Примечание: Приведенный выше фрагмент кода является временным и будет отображаться динамически вашей платформой.
🆚 Сравнение с другими ведущими моделями
Nemotron Nano 12B V2 VL vs. Qwen3 32B VL: Компания Nemotron демонстрирует превосходные характеристики в Тесты производительности OCR и видео.что делает его оптимально подходящим для приложений реального времени. Qwen3, с другой стороны, отдает приоритет более широкой универсальности в решении различных задач.
Nemotron Nano 12B V2 VL vs. ЛАВА-1.5: Хотя LLaVA-1.5 — это конкурентоспособная исследовательская модель, известная своей инновационной многомодальной настройкой инструкций, Nemotron Nano 12B V2 VL превосходит её по следующим показателям: анализ документов, оптическое распознавание текста и расширенное видеоанализ за счет использования специализированных видеокодеров и эффективных методов видеосэмплирования.
Nemotron Nano 12B V2 VL vs. Орел 2.5: Хотя Eagle 2.5 отлично подходит для решения общих задач визуального ответа на вопросы, Nemotron предлагает более специализированные возможности. Анализ диаграмм, глубокое понимание сложных документов и всестороннее осмысление видеоматериалов..
Nemotron Nano 12B V2 VL vs. InternVL 14B V2: Уникальная гибридная архитектура Mamba-Transformer от Nemotron позволяет достичь значительных результатов. более высокая пропускная способность при выполнении задач с длинным контекстом, что делает его более подходящим выбором для агентов искусственного интеллекта, обрабатывающих в режиме реального времени большие объемы визуальных и текстовых данных.
❓ Часто задаваемые вопросы (FAQ)
A: Это открытая многомодальная модель обработки изображений и языка от NVIDIA с 12 миллиардами параметров, превосходно подходящая для понимания видео и анализа документов. Ее ключевое новшество — гибридная архитектура Transformer-Mamba, которая обеспечивает баланс между точностью и эффективностью использования памяти для выполнения вычислений с низкой задержкой.
A: Он поддерживает сверхдлинное контекстное окно, включающее до 128 000 токенов, в сочетании с эффективной выборкой видео (EVS) и инновационными методами сокращения количества токенов для эффективной и экономичной обработки длинного контента.
A: Ключевые области применения включают интеллектуальный анализ документов, визуальные ответы на вопросы (VQA), видеоаналитику, анализ данных и составление отчетов, управление медиаактивами и кроссъязыковые мультимодальные задачи.
A: Nemotron Nano 12B V2 VL демонстрирует лидирующую точность в OCRBench v2 при понимании документов и средний балл по многомодальному анализу ≈74 в различных тестах, таких как MMMU, MathVista и DocVQA.
Игровая площадка для ИИ



Авторизоваться