



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'google/gemini-3-flash-preview',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

API Flash Gemini 3
Mecanismo multimodal de alto desempenho projetado para fluxos de trabalho orientados a agentes, inteligência de documentos e tempos de resposta inferiores a um segundo.
Visão geral do modelo
Conforme descrito na "Visão geral da API Flash do Gemini 3" original, esta versão (prévia) foi projetada para entregar capacidade de vanguarda sem a taxa de latência tradicional.
O Google DeepMind otimizou o Gemini 3 Flash para servir como base para aplicações de produção de alto volume, onde o custo por token e a velocidade de execução são tão críticos quanto a qualidade do resultado. A implementação está em andamento em toda a China. API Gemini (AI Studio), Vertex AIe o ecossistema de desenvolvedores mais amplo do Google.
Filosofia fundamental:
"Projetado para se comportar como um modelo de nível profissional, mas ajustado para a capacidade de resposta exigida por loops de agentes em tempo real."
Núcleo Técnico
- Arquitetura Mestrado em Direito Multimodal
- Janela de contexto 1.000.000 de Tokens
- Limite de conhecimento Janeiro de 2025
- Velocidade de saída ~218 tokens/seg
- Inferência Apoio ao raciocínio
Indicadores de desempenho
Quantificando o salto na eficiência da classe Flash.
Velocidade de produção
Testes independentes confirmam Aproximadamente 218 tokens de saída por segundo, tornando-o rápido o suficiente para back-ends conversacionais com "sensação instantânea" e loops de agentes complexos.
Ganho de Precisão
Os relatórios indicam que Melhoria relativa de aproximadamente 15% em precisão para tarefas de extração (escrita à mão, auditorias financeiras, contratos legais) em comparação com o Gemini 2.5 Flash.
Nuance de raciocínio
Ao contrário dos modelos "rápidos" anteriores que sacrificavam a profundidade, o Gemini 3 Flash oferece respostas mais precisas com menor latência, equilibrando sofisticação e velocidade.
Novos recursos e atualizações técnicas
Estrutura de preços da API
Custo de insumo
Custo de produção
*O preço inclui tokens de "pensamento" para saídas com capacidade de raciocínio na API Gemini.
Comparação com modelos de fronteira
Principal diferença prática: Enquanto GPT-5.2 É um programa de referência com foco no raciocínio, escolhido para aprimorar a "resposta final" em várias etapas. Gemini 3 Flash é uma abordagem padrão que prioriza a velocidade. A divergência arquitetônica mais significativa reside no comportamento contextual: o Flash permite o processamento de conjuntos de dados massivos (1 milhão de tokens), enquanto o GPT-5.2 se concentra na geração de resultados de raciocínio altamente estruturados e de alta qualidade.
🛡️ Guarda-corpos e limitações
Gemini 3 Flash aplica filtragem de segurança baseada em políticas que podem bloquear proativamente gerações em categorias restritas. Os desenvolvedores devem observar que as salvaguardas podem parecer mais rigorosas em solicitações de casos extremos. Além disso, a utilização de configurações de "pensamento" elevadas ou contextos completos de 1 milhão de tokens aumentará naturalmente a latência e o consumo de tokens — os ambientes de produção devem implementar estratégias de UX alternativas para possíveis recusas ou tempos limite.
Preparado para Inteligência em Grande Escala?
Implante o Gemini 3 Flash hoje mesmo através do AI Studio ou do Vertex AI.
Comece a usar a API Gemini.Playground de IA



Conecte-se