qwen-bg
max-ico04
В
0,182
Вне
0,364
max-ico02
Чат
max-ico03
Активный
DeepSeek V4 Flash
В контексте с 1 миллионом токенов V4 Flash достигает лишь 10% от производительности однотокенного кэша и 7% от размера кэша ключ-значение по сравнению с DeepSeek-V3.2 — это существенный скачок в эффективности, который делает обслуживание очень длинных контекстов экономически выгодным.
Text to Speech
                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'deepseek/deepseek-v4-flash',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();
                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")
Docs

Более 300 моделей ИИ для OpenClaw и агентов ИИ.

qwenmax-bg
deepseek-copy (1).svg
DeepSeek V4 Flash

DeepSeek/Модели/V4 Flash

DeepSeek V4 Flash

Модель «смесь экспертов» с 284 миллиардами параметров, разработанная для быстрого и доступного вывода без ущерба для глубины рассуждений. Тринадцать миллиардов активных параметров на каждый прямой проход. Один миллион контекстных токенов.

Предварительный показ 24 апреля 2026 года. Открытые веса Архитектура Министерства образования Контекст 1М
284Б
Всего параметров
Архитектура Министерства образования
13Б
Активно на каждый пропуск
за каждый пас вперед
Контекстное окно
токены
84 т/с
Выходная скорость
против 52 медиана
1.00с
ТТФТ
против 2,03 с медиана
47
Индекс интеллекта
Средний вес в открытом состоянии: 28
// 01 — ОБЗОР

Что такое DeepSeek V4 Flash?

DeepSeek V4 Flash — это модель четвертого поколения от DeepSeek, ориентированная на повышение эффективности. Она предлагается в качестве дополнительной опции наряду с V4 Pro — если Pro оптимизирует работу для максимальной интеллектуальности, то Flash оптимизирует работу для... пропускная способность, задержка и стоимость за токен при этом существенно не уступая по качеству.

Модель использует разреженную структуру «смесь экспертов»: хотя она содержит в общей сложности 284 миллиарда параметров, только 13 миллиардов являются активными в течение любого отдельного вызова функции вывода. Это напрямую приводит к снижению вычислительных затрат и стоимости, сохраняя при этом более высокое качество результатов, чем у плотной модели 13B, которая могла бы быть достигнута самостоятельно.

Ценообразование API (за 1 млн токенов)
Ввод (промах кэша)
0,18 доллара
за 1 млн токенов
Ввод (попадание в кэш)
0,04 доллара
за 1 млн токенов
Выход
0,36 доллара
за 1 млн токенов
// 02 — АРХИТЕКТУРА

Архитектура и ключевые инновации

Ряд архитектурных решений отличает V4 Flash от более ранних версий DeepSeek и от более широкой области открытого исходного кода.

Сжатое разреженное внимание (CSA)
Сжимает кэш ключ-значение по измерению последовательности (скорость 4 во флэш-памяти), затем применяет механизм DeepSeek Sparse Attention. Индексатор Lightning выбирает... топ-512 наиболее релевантных Сжатые записи ключ-значение для каждого запроса, а также скользящее окно из 128 токенов, благодаря чему локальный контекст никогда не теряется.
Сильно сжатое внимание (HCA)
Применяет гораздо более агрессивную степень сжатия. 128Затем выполняется плотное внимание к этому сжатому представлению, что обеспечивает модели недорогой глобальный обзор удаленных токенов в каждом слое. Слои CSA и HCA чередуются на протяжении всего процесса.
Гиперсвязи с ограничениями на многообразии
Усиливает традиционные остаточные соединения для повышения стабильности распространения сигнала между слоями, при этом сохранение выразительности модели — ключевой фактор поддержания качества при высоких степенях сжатия.
Маршрутизация MoE + Оптимизатор мюонов
Первые 3 слоя MoE используют хеш-маршрутизацию; остальные слои используют маршрутизацию DeepSeekMoE, полученную в результате обучения. Прогнозирование с использованием нескольких токенов Включено на глубине 1. Оптимизатор мюонов во время обучения, а также смешанная точность FP4/FP8 для снижения затрат на обучение.
обучающие данные

Прошел предварительное обучение по более чем 32 триллиона разнообразных высококачественных токеновПосле обучения использовался двухэтапный конвейер: независимое развитие экспертов в конкретной предметной области с помощью SFT и RL с GRPO, за которым следовала консолидация унифицированной модели посредством дистилляции на основе политики.

// 03 — РЕЖИМЫ РАССУЖДЕНИЯ

Режимы рассуждения

V4 Flash поддерживает три настраиваемых режима обработки данных — прямой контроль над компромиссом между задержкой и качеством без полного переключения моделей.

Немыслящий
Не генерируется цепочка рассуждений. Минимальная задержка, минимальное количество токенов. Лучше всего подходит для простых запросов, чата и этапов получения RAG.
Мышление
Внутренняя цепочка рассуждений перед ответом. Стандартный режим для кодирования, структурированного рассуждения и многоэтапных задач с участием агентов.
Думай, Макс
Расширенный бюджет для логических рассуждений. Приближается к качеству V4 Pro в сложных математических вычислениях, STEM-дисциплинах и формальных доказательствах. Рекомендуемый контекст: более 384 000 токенов.
// 04 — ТЕСТЫ ПРОИЗВОДИТЕЛЬНОСТИ

Результаты бенчмарков

В индексе искусственного интеллекта v4.0 (охватывающем GDPval-AA, GPQA Diamond, HLE, IFBench, SciCode, Terminal-Bench и другие) V4 Flash в режиме логического мышления показывает следующие результаты. 47 против медианы открытого веса 28.

бенчмарк
СЧЕТ
СТАТУС
Индекс интеллекта (AA v4.0)
47 / 100
+19 против медианы
Патнэм-200 Пасс@8
81.0
Высший уровень
HMMT 2026 февраль
95.2
Лидер
IMOAnswerBench
89.8
Лидер
Выходная скорость
84 т/с
1,6× медиана
ТТФТ
1.00с
В 2 раза быстрее
// 05 — ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ

Варианты использования

V4 Flash позиционируется как экономически выгодное решение по умолчанию для большинства сценариев обслуживания — модель, которую вы выбираете в первую очередь, если только явно не требуется максимальная интеллектуальная производительность.

  • Помощь в программировании Понимание репозитория с длинным контекстом, проверка различий и автозаполнение с высокой пропускной способностью. Контекст в 1 миллион токенов позволяет обработать целые кодовые базы среднего размера за один вызов.
  • Трубопроводы RAG Синтез больших объемов данных, при котором попадания в кэш снижают затраты на ввод до долей цента. Идеально подходит для рабочих нагрузок, связанных с обработкой большого количества документов и ответами на вопросы.
  • Агентский Многоэтапные циклы вызова инструментов. По производительности не уступает V4 Pro при выполнении простых задач агента, при этом стоимость токена в 3–4 раза ниже.
  • Обработка документов Контекст, содержащий 1 миллион токенов, позволяет обрабатывать целые контракты, кодовые базы или архивы отчетов за один вызов — разбиение на части не требуется.
  • Математика / STEM Режим Think Max обеспечивает формальные рассуждения на передовом уровне по цене, значительно меньшей, чем в режиме Pro. 95,2 балла на HMMT 2026 в феврале.
  • Чат и поддержка Время отклика менее секунды и пропускная способность 84 т/с обеспечивают практически незаметную задержку при разговоре в приложениях реального времени.
// 06 — СРАВНЕНИЯ

Как это сравнивается

против.
DeepSeek V4 Pro
Pro имеет в общей сложности 1,6 Тб / 49 Б активных параметров. Флэш-память примерно... В 3–4 раза дешевле и быстрее, с рассуждениями, которые по качеству близки к уровню профессионалов. Простые задачи для агентов: равенство. Цепочки, основанные на знаниях: лиды уровня профессионалов.
против.
DeepSeek V3.2
Флэш использует 10% от количества операций с плавающей запятой в версии 3.2 и 7% кэша ключ-значение при контексте в 1 миллион токенов — скачок в эффективности по сравнению с предыдущим поколением — при этом внедряя гибридное внимание и настраиваемые режимы рассуждений, которых не было в версии V3.2.
против.
GPT-5.4 Нано
В настоящее время V4 Flash является самая дешевая среди небольших функциональных моделейПредлагая более низкую цену по сравнению с GPT-5.4 Nano, а также открытые веса и контекст в 1 миллион токенов, чего не могут обеспечить большинство моделей класса Nano.

Игровая площадка для ИИ

Перед интеграцией протестируйте все модели API в тестовой среде. Мы предоставляем более 300 моделей для интеграции в ваше приложение.
связаться с нами
api-right-1
модель-bg02-1

Более 300 моделей ИИ для
OpenClaw и агенты искусственного интеллекта

Сэкономьте 20% на расходах