



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'google/gemini-3-flash-preview',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Gemini 3 Flash API
这款高吞吐量、多模态引擎专为智能代理工作流程、文档智能和亚秒级响应时间而设计。
模型概述
正如最初的“Gemini 3 Flash API 概述”中所述,此(预览)版本旨在提供 前沿能力 没有传统延迟成本。
Google DeepMind 已对 Gemini 3 Flash 进行了优化,使其成为高容量生产应用的骨干平台,在这些应用中,每个Tokens的成本和执行速度与输出质量同样重要。目前,该技术正在全球范围内推广。 Gemini API(AI Studio), Vertex AI以及Google更广泛的开发者生态系统。
核心理念:
“其设计目标是像专业级模型一样运行,但针对实时代理循环所需的响应速度进行了调整。”
技术核心
- 建筑学 多模态LLM
- 上下文窗口 1,000,000 个Tokens
- 知识门槛 2025年1月
- 输出速度 约 218 个Tokens/秒
- 推理 推理支持
性能基准
量化闪存级效率的飞跃。
吞吐量速度
独立测试证实 每秒约 218 个输出令牌使其速度足够快,能够实现“即时响应”的对话式后端和复杂的代理循环。
精度提升
报告显示 相对提升约15%。 与 Gemini 2.5 Flash 相比,在提取任务(手写、财务审计、法律合同)的准确性方面。
推理细微差别
与之前牺牲深度的“快速”型号不同,Gemini 3 Flash 提供更细致的答案,延迟更低,在复杂性和速度之间取得了平衡。
新增功能和技术升级
API定价结构
投入成本
产出成本
*定价包含 Gemini API 中支持推理的输出所需的“思考”Tokens。
与前沿模型的比较
主要实际区别: 尽管 GPT-5.2 是一款以推理为先导的旗舰产品,专为多步骤的“最终答案”完善而设计。 双子座3号闪光灯 默认设置为“速度优先”。架构上最显著的区别在于上下文行为:Flash 允许您输入海量数据集(100 万个词元),而 GPT-5.2 则专注于生成结构化程度高、高质量的推理输出。
🛡️ 护栏和限制
Gemini 3 闪光灯适用 基于策略的安全过滤 可以主动阻止受限类别中的数据生成。开发者应注意,对于极端情况的提示,防护措施可能会更加严格。此外,使用较高的“思考”设置或完整的 100 万令牌上下文自然会增加延迟和令牌消耗——生产环境应实施备用用户体验策略,以应对可能出现的拒绝或超时情况。



登录