Dans

0,553875

Dehors

3,32325

Chat

Actif

Gemini 3 Flash

Gemini 3 Flash Preview est l'API LLM multimodale rapide de Google pour les agents, le codage et les documents, offrant un contrôle de niveau professionnel.

Jetons gratuits de 1 $ pour les nouveaux membres

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'google/gemini-3-flash-preview',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="google/gemini-3-flash-preview",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

Une seule API pour plus de 300 modèles d'IA

Économisez 20 % sur les coûts et recevez des jetons gratuits d'une valeur de 1 $.

Obtenir la clé API Explorer les modèles

68c01bc1dfdad28c348f3931_6683ca4d31bd1db5699f48be_google 1 (1).svg

Gemini 3 Flash

Renseignements de pointe à vitesse fulgurante

API Flash Gemini 3

Moteur multimodal à haut débit conçu pour les flux de travail automatisés, l'analyse documentaire et des temps de réponse inférieurs à la seconde.

Présentation du modèle

Comme indiqué dans la présentation originale de l'API Flash Gemini 3, cette version (aperçu) est conçue pour fournir capacité de type frontière sans la taxe de latence traditionnelle.

Google DeepMind a optimisé Gemini 3 Flash pour servir de base aux applications de production à haut volume, où le coût par jeton et la vitesse d'exécution sont aussi critiques que la qualité du résultat. Son déploiement est en cours. API Gemini (AI Studio), IA Vertexet l'écosystème de développeurs plus large de Google.

Philosophie clé :

« Conçu pour se comporter comme un modèle professionnel, mais optimisé pour la réactivité requise par les boucles d'agents en temps réel. »

Noyau technique

Architecture Master en droit multimodal
Fenêtre contextuelle 1 000 000 de jetons
Seuil de connaissances Janvier 2025
Vitesse de sortie ~218 jetons/seconde
Inférence Aide au raisonnement

Indicateurs de performance

Quantification du bond en avant en matière d'efficacité des mémoires Flash.

⚡

Vitesse de débit

Des tests indépendants confirment ~218 jetons de sortie par seconde, ce qui le rend suffisamment rapide pour les systèmes conversationnels à « sensation instantanée » et les boucles d'agents complexes.

📈

Gain de précision

Les rapports indiquent que amélioration relative d'environ 15 % en précision pour les tâches d'extraction (écriture manuscrite, audits financiers, contrats juridiques) par rapport à Gemini 2.5 Flash.

🧠

Nuance de raisonnement

Contrairement aux modèles « rapides » précédents qui sacrifiaient la profondeur, le Gemini 3 Flash offre des réponses plus nuancées avec une latence plus faible, alliant sophistication et rapidité.

Nouvelles fonctionnalités et améliorations techniques

Fenêtre de contexte de jeton de 1 million

Le Gemini 3 Flash redéfinit les possibilités des modèles « compacts » en offrant une capacité massive contexte d'entrée de 1 million de jetonsCela permet aux développeurs d'intégrer des bases de code complètes, des fichiers vidéo de plusieurs heures ou d'importants corpus juridiques dans une seule invite.

Sortie 64K : Permet la génération de contenu long, la transformation complexe des données et les états de dialogue soutenus.

Appel d'outils multimodaux

Le modèle prend en charge les appels de fonctions avancés qui comprennent images, audio et vidéo au sein du flux de réponse de l'outil. Cela crée une capacité d'« agent multimodal » où l'IA peut « voir » un problème et déclencher une action API spécifique en temps réel.

Traitement natif des fichiers PDF et des documents structurés.
Gestion d'état persistante pour les flux de travail complexes des agents.
Optimisé pour l'extraction de la « chaîne de pensée ».

Structure tarifaire de l'API

Coût des intrants

0,55 $ / 1 million de jetons

Coût de production

3,32 $ / 1 million de jetons

*Le prix inclut les jetons « de réflexion » pour les sorties compatibles avec le raisonnement dans l'API Gemini.

Comparaison avec les modèles Frontier

Comparaison de modèles	Différenciation fondamentale	Cas d'utilisation optimal
contre Gemini 3 Pro	Flash est optimisé pour Coût et latence; Pro se concentre sur Raisonnement de pointe.	Bots de soutien contre recherche scientifique.
contre Gemini 2.5 Flash	Gemini 3 Flash fournit un Amélioration de la précision d'environ 15 % et des nuances plus profondes.	Extraction de documents et serveurs back-end à haut débit QPS.
par rapport à GPT-5.2	GPT-5.2 est en tête dans Correction et finition du code; Flash mène dans Taille du contexte d'entrée.	Analyse stratégique contre alimentation massive du corpus.

Principale différence pratique : Alors que GPT-5.2 est un système phare privilégiant le raisonnement, choisi pour un perfectionnement en plusieurs étapes de la « réponse finale », Gemini 3 Flash Il s'agit d'une configuration par défaut axée sur la vitesse. La principale divergence architecturale réside dans le comportement contextuel : Flash permet de traiter des ensembles de données massifs (1 million de jetons), tandis que GPT-5.2 privilégie la génération de résultats de raisonnement structurés et de haute qualité.

🛡️ Garde-fous et limitations

Gemini 3 Flash s'applique filtrage de sécurité basé sur des politiques Ce système permet de bloquer proactivement les générations dans les catégories restreintes. Les développeurs doivent noter que les garde-fous peuvent paraître plus stricts pour les cas particuliers. De plus, l'utilisation de paramètres de « réflexion » élevés ou de contextes avec 1 million de jetons augmente naturellement la latence et la consommation de jetons ; les environnements de production doivent donc implémenter des stratégies d'expérience utilisateur de repli pour gérer les refus ou les délais d'attente potentiels.

Prêts pour l'intelligence à grande échelle ?

Déployez Gemini 3 Flash dès aujourd'hui via AI Studio ou Vertex AI.

Premiers pas avec l'API Gemini

Terrain de jeu de l'IA

Testez tous les modèles d'API dans l'environnement de test avant de les intégrer. Nous proposons plus de 300 modèles à intégrer à votre application.

Essai gratuit

Une API
Plus de 300 modèles d'IA

Économisez 20 % sur vos coûts