



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'deepseek/deepseek-v4-flash',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Búsqueda profunda Flash V4
Un modelo de mezcla de expertos con 284 mil millones de parámetros, diseñado para una inferencia rápida y asequible sin sacrificar la profundidad del razonamiento. Trece mil millones de parámetros activos por pasada hacia adelante. Un millón de tokens de contexto.
¿Qué es DeepSeek V4 Flash?
DeepSeek V4 Flash es el miembro de la familia de modelos de cuarta generación de DeepSeek que prioriza la eficiencia. Se sitúa junto a V4 Pro como una opción complementaria: mientras que Pro optimiza para la máxima inteligencia, Flash optimiza para rendimiento, latencia y coste por token Sin que la calidad se vea seriamente afectada.
El modelo utiliza un diseño de mezcla de expertos disperso: si bien tiene un total de 284 mil millones de parámetros, solo 13 mil millones están activos durante cada llamada de inferencia. Esto se traduce directamente en un menor coste computacional y un menor coste, manteniendo al mismo tiempo resultados más precisos que los que lograría un modelo 13B denso por sí solo.
Arquitectura e innovaciones clave
Varias decisiones arquitectónicas distinguen a V4 Flash de las versiones anteriores de DeepSeek y del ámbito más amplio del software de código abierto.
Preentrenado en más de 32 billones de tokens diversos y de alta calidad.El proceso posterior al entrenamiento utilizó una metodología de dos etapas: el desarrollo independiente de expertos en dominios específicos mediante SFT y RL con GRPO, seguido de la consolidación unificada del modelo mediante destilación basada en políticas.
Modos de razonamiento
V4 Flash admite tres modos de esfuerzo de razonamiento configurables, lo que permite un control directo sobre el equilibrio entre latencia y calidad sin necesidad de cambiar de modelo por completo.
Rendimiento de referencia
En el Índice de Inteligencia de Análisis Artificial v4.0 (que abarca GDPval-AA, GPQA Diamond, HLE, IFBench, SciCode, Terminal-Bench y otros), V4 Flash en modo de razonamiento obtiene puntuaciones 47 frente a una mediana de peso abierto de 28.
Casos de uso
V4 Flash se posiciona como la opción predeterminada y rentable para la mayoría de los escenarios de servicio: el modelo al que se recurre en primer lugar a menos que se requiera explícitamente la máxima inteligencia de vanguardia.
- Asistencia en codificación Comprensión de repositorios con contexto extenso, revisión de diferencias y autocompletado a alto rendimiento. El contexto de 1 millón de tokens absorbe bases de código medianas completas en una sola llamada.
- Tuberías RAG Síntesis de recuperación de alto volumen donde los aciertos de caché reducen los costos de entrada a fracciones de centavo. Ideal para cargas de trabajo de producción de preguntas y respuestas con gran cantidad de documentos.
- Agente Bucles de llamada a herramientas de varios pasos. Su rendimiento es comparable al de V4 Pro en tareas sencillas de agentes, con un coste por token entre 3 y 4 veces menor.
- Procesamiento de documentos El contexto de 1 millón de tokens absorbe contratos completos, bases de código o archivos de informes en una sola llamada, sin necesidad de segmentación.
- Matemáticas / STEM El modo Think Max produce razonamiento formal de nivel de vanguardia a una fracción del precio de Pro. 95.2 en HMMT 2026 Feb.
- Chat y soporte Un TTFT inferior a un segundo y un rendimiento de 84 t/s hacen que la latencia conversacional sea imperceptible en aplicaciones en tiempo real.
Cómo se compara
Campo de juegos de IA



Acceso