



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'google/gemini-3-flash-preview',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

API Flash de Gemini 3
El motor multimodal de alto rendimiento diseñado para flujos de trabajo de agentes, inteligencia de documentos y tiempos de respuesta inferiores a un segundo.
Descripción general del modelo
Como se describe en la "Descripción general de la API Flash de Gemini 3" original, esta iteración (de vista previa) está diseñada para ofrecer capacidad de frontera sin el impuesto de latencia tradicional.
Google DeepMind ha optimizado Gemini 3 Flash para que sirva como base para aplicaciones de producción de alto volumen donde el coste por token y la velocidad de ejecución son tan cruciales como la calidad del resultado. Actualmente se está implementando en todo el mundo. API de Gemini (Estudio de IA), Vértice IAy el ecosistema de desarrolladores más amplio de Google.
Filosofía clave:
"Diseñado para comportarse como un modelo de nivel profesional, pero optimizado para la capacidad de respuesta que requieren los bucles de agentes en tiempo real".
Núcleo técnico
- Arquitectura Maestría en Derecho Multimodal
- Ventana de contexto 1.000.000 de tokens
- Límite de conocimiento Enero de 2025
- Velocidad de salida ~218 tokens/seg
- Inferencia Apoyo al razonamiento
Puntos de referencia de rendimiento
Cuantificando el salto en la eficiencia de la clase Flash.
Velocidad de rendimiento
Pruebas independientes confirman ~218 tokens de salida por segundo, haciéndolo lo suficientemente rápido para backends conversacionales de "sensación instantánea" y bucles de agentes complejos.
Ganancia de precisión
Los informes indican que ~15% de mejora relativa en precisión para tareas de extracción (escritura a mano, auditorías financieras, contratos legales) en comparación con Gemini 2.5 Flash.
Matiz del razonamiento
A diferencia de los modelos "rápidos" anteriores que sacrificaban la profundidad, Gemini 3 Flash ofrece respuestas más matizadas con menor latencia, equilibrando la sofisticación con la velocidad.
Nuevas funciones y actualizaciones técnicas
Estructura de precios de la API
Costo de entrada
Costo de producción
*El precio incluye tokens de "pensamiento" para salidas habilitadas para razonamiento en la API de Gemini.
Comparación con los modelos Frontier
Diferencia práctica clave: Mientras GPT-5.2 es un producto estrella que prioriza el razonamiento y que fue elegido para pulir la "respuesta final" en varios pasos, Géminis 3 Flash Es un valor predeterminado que prioriza la velocidad. La divergencia arquitectónica más significativa reside en el comportamiento del contexto: Flash permite alimentar conjuntos de datos masivos (1 millón de tokens), mientras que GPT-5.2 se centra en generar resultados de razonamiento altamente estructurados y de alta calidad.
🛡️ Barandillas y limitaciones
Se aplica Gemini 3 Flash filtrado de seguridad basado en políticas que pueden bloquear proactivamente las generaciones en categorías restringidas. Los desarrolladores deben tener en cuenta que las barreras de seguridad pueden resultar más estrictas en casos extremos. Además, el uso de configuraciones de alto nivel de pensamiento o contextos con un máximo de 1 millón de tokens aumentará naturalmente la latencia y el consumo de tokens. Los entornos de producción deben implementar estrategias de experiencia de usuario alternativas para posibles rechazos o tiempos de espera.
¿Listo para la inteligencia a gran escala?
Implemente Gemini 3 Flash hoy a través de AI Studio o Vertex AI.
Comience a usar la API de GeminiPatio de juegos de IA



Acceso