131K

Вне

Чат

запрещать

Nemotron Nano 12B V2 VL

Оптимизированная для развертывания с низкой задержкой, она превосходно справляется с оптическим распознаванием символов (OCR), построением диаграмм, пониманием документов и анализом длинных видеороликов.

Новые участники получат бесплатные токены номиналом 1 доллар.

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'nvidia/nemotron-nano-12b-v2-vl',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="nvidia/nemotron-nano-12b-v2-vl",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

Более 300 моделей ИИ для OpenClaw и агентов ИИ.

Сэкономьте 20% на расходах и получите бесплатные токены на 1 доллар.

Получить ключ API Изучите модели

Nemotron Nano 12B V2 VL

Подробная информация о товаре

Nemotron Nano 12B V2 VL NVIDIA — это передовая открытая многомодальная модель обработки изображений и языка с 12 миллиардами параметров, разработанная компанией NVIDIA для исключительной производительности в понимании видео, анализе сложных многоизобразных документов и генерации тонких выводов на естественном языке. В ней используется инновационный подход. гибридная архитектура Transformer-MambaБлагодаря этому, он идеально сочетает в себе высокую точность, характерную для трансформеров, с эффективным использованием памяти при моделировании последовательностей в Mamba. Эта инновационная конструкция обеспечивает высокую пропускную способность и низкую задержку при выполнении вычислений, что делает его оптимально подходящим для сложных задач, связанных с большим объемом текста и изображений, особенно с длинными документами и видео.

🚀 Технические характеристики

• Размер модели: 12,6 миллиарда параметров
• Архитектура: Гибридная модель последовательности Transformer-Mamba
• Контекстное окно: Сверхдлинный, вмещает до 128 000 токенов.
• Способы ввода: Текст, многокадровые документы, видеокадры

✨ Показатели производительности

OCRBench v2: Обеспечивает высочайшую точность оптического распознавания символов для решения задач, требующих превосходного понимания документов.
Мультимодальное рассуждение: Обладает впечатляющим средним баллом ≈74 по ключевым тестам, включая MMMU, MathVista, AI2D, ChartQA, DocVQA и Video-MME.
Понимание видео: Благодаря использованию технологии эффективного сэмплирования видео (EVS) обеспечивается обработка видео длинных фрагментов со значительно сниженными затратами на вывод данных.
Многоязычная точность: Обеспечивает высокую производительность на различных языках, гарантируя качественное визуальное отображение ответов на вопросы и точный анализ документов в глобальном масштабе.

💡 Основные характеристики

✅ Вывод видеосигнала с низкой задержкой: Оптимизировано для исключительно быстрой и высокопроизводительной обработки объединенных текстовых и графических данных.
✅ Эффективная обработка длинного контекста: Способна обрабатывать большие объемы видео и документов, содержащие до 128 000 токенов, благодаря инновационным методам сокращения количества токенов.
✅ Понимание нескольких изображений и видео: Обеспечивает одновременный анализ множества изображений и видеокадров для всесторонней интерпретации и обобщения сцены.
✅ Поддержка высокого разрешения и широкой компоновки: Программа профессионально обрабатывает мозаичные изображения и панорамные снимки, что делает ее идеальной для диаграмм, форм и сложных визуальных документов.
✅ Мультимодальные запросы: Поддерживает расширенные функции визуального ответа на вопросы, извлечение данных из документов, многоэтапное логическое мышление и создание подробных подписей на нескольких языках.
✅ Гибридная архитектура трансформатора и «Мамбы»: Умело сочетает высокую точность традиционных трансформеров с эффективностью использования памяти Mamba, повышая масштабируемость вывода.

💲 Цены на Nemotron Nano 12B V2 VL API

Вход: 0,22155 долл. США / 1 млн токенов

Выход: 0,66465 долл. США / 1 млн токенов

🎯 Ключевые варианты использования

• Анализ документов: Автоматизируйте извлечение и анализ сложных документов, таких как счета-фактуры, договоры, квитанции и руководства, с высокой точностью.
• Визуальные ответы на вопросы (VQA): Запрашивайте сложные изображения, диаграммы или видеофрагменты, чтобы получать подробные и точные ответы.
• Видеоаналитика: Выполняйте комплексное суммирование, распознавание действий и анализ сцен в видеороликах большого формата.
• Анализ данных и составление отчетов: Автоматическое создание высокоточных структурированных отчетов на основе разнообразных многомодальных входных данных.
• Управление медиаактивами: Обеспечьте наличие подробных субтитров и всестороннего индексирования для видеоконтента и обширных мультимедийных библиотек.
• Межъязыковые мультимодальные задачи: Обеспечивает бесперебойную обработку входных данных на разных языках в сочетании с изображениями для широкого спектра глобальных приложений.

💻 Пример кода

Примечание: Приведенный выше фрагмент кода является временным и будет отображаться динамически вашей платформой.

🆚 Сравнение с другими ведущими моделями

Nemotron Nano 12B V2 VL vs. Qwen3 32B VL: Компания Nemotron демонстрирует превосходные характеристики в Тесты производительности OCR и видео.что делает его оптимально подходящим для приложений реального времени. Qwen3, с другой стороны, отдает приоритет более широкой универсальности в решении различных задач.

Nemotron Nano 12B V2 VL vs. ЛАВА-1.5: Хотя LLaVA-1.5 — это конкурентоспособная исследовательская модель, известная своей инновационной многомодальной настройкой инструкций, Nemotron Nano 12B V2 VL превосходит её по следующим показателям: анализ документов, оптическое распознавание текста и расширенное видеоанализ за счет использования специализированных видеокодеров и эффективных методов видеосэмплирования.

Nemotron Nano 12B V2 VL vs. Орел 2.5: Хотя Eagle 2.5 отлично подходит для решения общих задач визуального ответа на вопросы, Nemotron предлагает более специализированные возможности. Анализ диаграмм, глубокое понимание сложных документов и всестороннее осмысление видеоматериалов..

Nemotron Nano 12B V2 VL vs. InternVL 14B V2: Уникальная гибридная архитектура Mamba-Transformer от Nemotron позволяет достичь значительных результатов. более высокая пропускная способность при выполнении задач с длинным контекстом, что делает его более подходящим выбором для агентов искусственного интеллекта, обрабатывающих в режиме реального времени большие объемы визуальных и текстовых данных.

❓ Часто задаваемые вопросы (FAQ)

В: Что такое Nemotron Nano 12B V2 VL и какова его основная инновация?

A: Это открытая многомодальная модель обработки изображений и языка от NVIDIA с 12 миллиардами параметров, превосходно подходящая для понимания видео и анализа документов. Ее ключевое новшество — гибридная архитектура Transformer-Mamba, которая обеспечивает баланс между точностью и эффективностью использования памяти для выполнения вычислений с низкой задержкой.

В: Как Nemotron Nano 12B V2 VL справляется с длинными документами и видео?

A: Он поддерживает сверхдлинное контекстное окно, включающее до 128 000 токенов, в сочетании с эффективной выборкой видео (EVS) и инновационными методами сокращения количества токенов для эффективной и экономичной обработки длинного контента.

В: Каковы основные варианты использования этой модели?

A: Ключевые области применения включают интеллектуальный анализ документов, визуальные ответы на вопросы (VQA), видеоаналитику, анализ данных и составление отчетов, управление медиаактивами и кроссъязыковые мультимодальные задачи.

В: Как его производительность соотносится с производительностью при распознавании текста и многомодальном рассуждении?

A: Nemotron Nano 12B V2 VL демонстрирует лидирующую точность в OCRBench v2 при понимании документов и средний балл по многомодальному анализу ≈74 в различных тестах, таких как MMMU, MathVista и DocVQA.

Игровая площадка для ИИ

Перед интеграцией протестируйте все модели API в тестовой среде. Мы предоставляем более 300 моделей для интеграции в ваше приложение.

Попробуйте бесплатно

Более 300 моделей ИИ для
OpenClaw и агенты искусственного интеллекта

Сэкономьте 20% на расходах