qwen-bg
ico máximo04
En
0,182
Afuera
0,364
ico-máximo02
Charlar
ico-máximo03
Activo
DeepSeek V4 Flash
En el contexto de 1 millón de tokens, V4 Flash alcanza solo el 10 % de las operaciones de punto flotante (FLOPs) de un solo token y el 7 % del tamaño de la caché KV en comparación con DeepSeek-V3.2, un salto de eficiencia espectacular que hace que servir contextos muy largos sea realmente económico.
Text to Speech
                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'deepseek/deepseek-v4-flash',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();
                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")
Docs

Más de 300 modelos de IA para OpenClaw y agentes de IA

qwenmax-bg
deepseek-copy (1).svg
DeepSeek V4 Flash

Búsqueda profunda/Modelos/Flash V4

Búsqueda profunda Flash V4

Un modelo de mezcla de expertos con 284 mil millones de parámetros, diseñado para una inferencia rápida y asequible sin sacrificar la profundidad del razonamiento. Trece mil millones de parámetros activos por pasada hacia adelante. Un millón de tokens de contexto.

Avance: 24 de abril de 2026 Pesos abiertos Arquitectura del Ministerio de Educación Contexto 1M
284B
Parámetros totales
Arquitectura del Ministerio de Educación
13B
Activo por pase
por pase hacia adelante
1M
Ventana de contexto
fichas
84 toneladas/s
Velocidad de salida
frente a 52 mediana
1,00 s
TTFT
frente a una mediana de 2,03 s
47
Índice de Inteligencia
Peso promedio de apertura: 28
// 01 — INTRODUCCIÓN

¿Qué es DeepSeek V4 Flash?

DeepSeek V4 Flash es el miembro de la familia de modelos de cuarta generación de DeepSeek que prioriza la eficiencia. Se sitúa junto a V4 Pro como una opción complementaria: mientras que Pro optimiza para la máxima inteligencia, Flash optimiza para rendimiento, latencia y coste por token Sin que la calidad se vea seriamente afectada.

El modelo utiliza un diseño de mezcla de expertos disperso: si bien tiene un total de 284 mil millones de parámetros, solo 13 mil millones están activos durante cada llamada de inferencia. Esto se traduce directamente en un menor coste computacional y un menor coste, manteniendo al mismo tiempo resultados más precisos que los que lograría un modelo 13B denso por sí solo.

Precios de la API (por 1 millón de tokens)
Entrada (fallo de caché)
$0.18
por cada millón de tokens
Entrada (acierto de caché)
$0.04
por cada millón de tokens
Producción
$0.36
por cada millón de tokens
// 02 — ARQUITECTURA

Arquitectura e innovaciones clave

Varias decisiones arquitectónicas distinguen a V4 Flash de las versiones anteriores de DeepSeek y del ámbito más amplio del software de código abierto.

Atención dispersa comprimida (CSA)
Comprime las cachés KV a lo largo de la dimensión de secuencia (tasa 4 en Flash), luego aplica DeepSeek Sparse Attention. Un indexador Lightning selecciona el Los 512 más relevantes Entradas KV comprimidas por consulta, además de una ventana deslizante de 128 tokens para que nunca se pierda el contexto local.
Atención altamente comprimida (HCA)
Aplica una tasa de compresión mucho más agresiva. 128Luego, aplica atención densa sobre esa representación comprimida, lo que le brinda al modelo una visión global y económica de los tokens distantes en cada capa. Las capas CSA y HCA se intercalan a lo largo del proceso.
Hiperconexiones con restricciones de variedad
Refuerza las conexiones residuales convencionales para mejorar la estabilidad de la propagación de la señal a través de las capas, mientras que preservando la expresividad del modelo — un factor clave para mantener la calidad con altas relaciones de compresión.
Enrutamiento MoE + Optimizador de muones
Las tres primeras capas de MoE utilizan enrutamiento Hash; las capas restantes utilizan enrutamiento DeepSeekMoE aprendido. Predicción de múltiples tokens Habilitado a profundidad 1. Optimizador de muones durante el entrenamiento junto con precisión mixta FP4/FP8 para un bajo coste de entrenamiento.
Datos de entrenamiento

Preentrenado en más de 32 billones de tokens diversos y de alta calidad.El proceso posterior al entrenamiento utilizó una metodología de dos etapas: el desarrollo independiente de expertos en dominios específicos mediante SFT y RL con GRPO, seguido de la consolidación unificada del modelo mediante destilación basada en políticas.

// 03 — MODOS DE RAZONAMIENTO

Modos de razonamiento

V4 Flash admite tres modos de esfuerzo de razonamiento configurables, lo que permite un control directo sobre el equilibrio entre latencia y calidad sin necesidad de cambiar de modelo por completo.

No pensar
No se generó ninguna cadena de razonamiento. Máxima latencia, menor cantidad de tokens. Ideal para consultas sencillas, chat y pasos de recuperación RAG.
Pensamiento
Cadena de pensamiento interna antes de responder. Modo estándar para codificación, razonamiento estructurado y tareas de agentes de varios pasos.
Piensa en Max
Presupuesto de razonamiento extendido. Alcanza la calidad de V4 Pro en matemáticas complejas, ciencia, tecnología, ingeniería y matemáticas (STEM) y demostraciones formales. Contexto recomendado: más de 384 000 tokens.
// 04 — PARÁMETROS DE REFERENCIA

Rendimiento de referencia

En el Índice de Inteligencia de Análisis Artificial v4.0 (que abarca GDPval-AA, GPQA Diamond, HLE, IFBench, SciCode, Terminal-Bench y otros), V4 Flash en modo de razonamiento obtiene puntuaciones 47 frente a una mediana de peso abierto de 28.

PUNTO DE REFERENCIA
PUNTAJE
ESTADO
Índice de Inteligencia (AA v4.0)
47/100
+19 frente a la mediana
Paso Putnam-200 a 8
81.0
Nivel superior
HMMT 2026 febrero
95.2
Líder
Banco de respuestas de la OMI
89.8
Líder
Velocidad de salida
84 toneladas/s
1,6 veces la mediana
TTFT
1,00 s
2 veces más rápido
// 05 — CASOS DE USO

Casos de uso

V4 Flash se posiciona como la opción predeterminada y rentable para la mayoría de los escenarios de servicio: el modelo al que se recurre en primer lugar a menos que se requiera explícitamente la máxima inteligencia de vanguardia.

  • Asistencia en codificación Comprensión de repositorios con contexto extenso, revisión de diferencias y autocompletado a alto rendimiento. El contexto de 1 millón de tokens absorbe bases de código medianas completas en una sola llamada.
  • Tuberías RAG Síntesis de recuperación de alto volumen donde los aciertos de caché reducen los costos de entrada a fracciones de centavo. Ideal para cargas de trabajo de producción de preguntas y respuestas con gran cantidad de documentos.
  • Agente Bucles de llamada a herramientas de varios pasos. Su rendimiento es comparable al de V4 Pro en tareas sencillas de agentes, con un coste por token entre 3 y 4 veces menor.
  • Procesamiento de documentos El contexto de 1 millón de tokens absorbe contratos completos, bases de código o archivos de informes en una sola llamada, sin necesidad de segmentación.
  • Matemáticas / STEM El modo Think Max produce razonamiento formal de nivel de vanguardia a una fracción del precio de Pro. 95.2 en HMMT 2026 Feb.
  • Chat y soporte Un TTFT inferior a un segundo y un rendimiento de 84 t/s hacen que la latencia conversacional sea imperceptible en aplicaciones en tiempo real.
// 06 — COMPARACIONES

Cómo se compara

vs.
DeepSeek V4 Pro
Pro lleva 1,6 TB en total / 49 B de parámetros activos. El flash es aproximadamente De 3 a 4 veces más barato y más rápido, con un razonamiento que se acerca mucho a la calidad Pro. Tareas de agente simples: paridad. Cadenas intensivas en conocimiento: líderes Pro.
vs.
DeepSeek V3.2
Flash utiliza 10% de los FLOPs de la versión 3.2 y el 7% de su caché KV en el contexto de 1M-token, un salto generacional en eficiencia, mientras que la introducción de la atención híbrida y los modos de razonamiento configurables de los que carecía la versión 3.2.
vs.
GPT-5.4 Nano
V4 Flash es actualmente el El más económico entre los modelos pequeños y capaces., superando a GPT-5.4 Nano en precio a la vez que ofrece ponderaciones abiertas y un contexto de 1 millón de tokens que la mayoría de los modelos de clase nano no proporcionan.

Campo de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Contáctanos
api-right-1
modelo-bg02-1

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos