Dans

Dehors

Chat

désactiver

Texteembedding-gecko-multilingual@001

Explorez l'API du modèle texteembedding-gecko-multilingual@001, son architecture, ses données d'entraînement, ses performances et ses applications dans les tâches NLP.

Jetons gratuits de 1 $ pour les nouveaux membres

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const main = async () => {
  const api = new OpenAI({ apiKey: '', baseURL: 'https://api.ai.cc/v1' });

  const text = 'Your text string goes here';
  const response = await api.embeddings.create({
    input: text,
    model: 'textembedding-gecko-multilingual@001',
  });
  const embedding = response.data[0].embedding;

  console.log(embedding);
};

main();

                                        import json
from openai import OpenAI


def main():
    client = OpenAI(
        base_url="https://api.ai.cc/v1",
        api_key="",
    )

    text = "Your text string goes here"

    response = client.embeddings.create(input=text, model="textembedding-gecko-multilingual@001")
    embedding = response.data[0].embedding

    print(json.dumps(embedding, indent=2))


main()

Docs

Une seule API pour plus de 300 modèles d'IA

Économisez 20 % sur les coûts et recevez des jetons gratuits d'une valeur de 1 $.

Obtenir la clé API Explorer les modèles

Texteembedding-gecko-multilingual@001

Détails du produit

Modèle textembedding-gecko-multilingual@001 de Google

Le textembedding-gecko-multilingual@001 Le modèle `mt`, lancé par Google le 30 avril 2024, représente une avancée majeure dans le traitement automatique du langage naturel (TALN). Modèle d'intégration de texte de pointe, il excelle dans la transformation de données textuelles diverses en représentations vectorielles numériques précises, capturant efficacement les significations et les relations sémantiques à travers de nombreuses langues.

✨ Principales fonctionnalités

✅Haute capacité : Prend en charge jusqu'à 3 072 jetons d'entrée, permettant une analyse textuelle complète.
✅Sortie vectorielle : Génère des représentations vectorielles détaillées à 768 dimensions, idéales pour une compréhension sémantique nuancée.
✅Excellence de référence : Obtient des performances supérieures sur le Massive Text Embedding Benchmark (MTEB), établissant de nouvelles normes industrielles.
✅Formation innovante : Exploite un nouvel ensemble de données de réglage fin (FRet) pour améliorer les capacités de génération de requêtes et de passages.
✅Assistance multilingue : Conçu pour une large couverture linguistique, incluant l'arabe, le bengali, le chinois, l'anglais, le français, l'hindi et l'espagnol.

💡 Applications visées

Ce modèle polyvalent est conçu pour permettre une large gamme d'applications de traitement automatique du langage naturel (TALN) :

🔍Recherche sémantique : Améliorez la pertinence et la précision des résultats de recherche en comprenant l'intention de recherche.
🏷️Classification du texte : Catégorisez efficacement les documents et les extraits de texte.
📚Récupération de documents : Améliorer la découverte d'informations pertinentes dans de grands ensembles de données.
📊Clustering et recommandation : Regroupez les articles similaires et fournissez des suggestions personnalisées.
🚨Détection des valeurs aberrantes : Identifier les anomalies ou les schémas inhabituels dans les données textuelles.

Spécifications techniques

Architecture

Le modèle texteembedding-gecko-multilingual@001 utilise une architecture de représentation vectorielle dense, caractéristique des grands modèles de langage (LLM) avancés. Il emploie des méthodologies d'apprentissage profond sophistiquées pour produire des plongements lexicaux qui reflètent fidèlement le contexte sémantique complexe de tout texte d'entrée.

Données d'entraînement et diversité

Entraîné sur un ensemble de données diversifié, généré par un processus LLM unique en deux étapes, le modèle génère d'abord des requêtes et des passages pertinents, puis les classe afin de créer un ensemble de données robuste pour l'ajustement fin. Ceci garantit une large couverture des tâches et des performances accrues. Si la diversité est un principe de conception clé pour atténuer les biais, une évaluation continue est essentielle pour corriger tout biais émergent des données d'entraînement.

Seuil de connaissances

La base de connaissances du modèle est à jour au [date manquante] Avril 2024, reflétant les dernières informations disponibles à ce moment-là.

🚀 Des indicateurs de performance inégalés

Le modèle texteembedding-gecko-multilingual@001 présente des performances exceptionnelles, notamment sur le Test de référence pour l'intégration de texte massif (MTEB)Ce référentiel exhaustif évalue les modèles selon sept catégories et 56 ensembles de données.

📊Score MTEB moyen : 66,31 avec des plongements de dimension 768.

Ce score exceptionnel le positionne comme un leader du marché, surpassant des modèles jusqu'à 7 fois plus grands et ceux avec des plongements de dimension supérieure (jusqu'à 4096 dimensions), tout en conservant une taille compacte de seulement 1,2 milliard de paramètres.

Excellence spécifique à la tâche

Le modèle démontre des capacités supérieures pour l'ensemble des tâches fondamentales du traitement automatique du langage naturel :

🏷️Classification du texte : 81,17
↔️Similarité textuelle sémantique : 85,06
📝Récapitulation: 32,63
🔎Tâches de récupération : 55,70

Généralisation sans exemple

L'une de ses caractéristiques remarquables est sa forte capacité de généralisation sans exemple d'apprentissage, notamment lorsqu'elle est entraînée exclusivement sur le jeu de données synthétique FRet. Cela lui permet de s'adapter efficacement à des tâches inédites sans exposition préalable à des jeux de données spécifiques, surpassant souvent diverses méthodes de référence concurrentes.

🛠️ Comment utiliser et accéder

Intégration et exemples de code

Le modèle texteembedding-gecko-multilingual@001 est facilement disponible sur le Plateforme API IA/MLVous pouvez l'intégrer à vos applications en utilisant la structure de code suivante :

Pour plus de détails, consultez le site web. Plateforme API IA/ML.

Documentation API complète

Des instructions détaillées concernant l'intégration et l'utilisation sont disponibles via le site officiel. Documentation de l'API fourni sur le site web de l'API IA/ML.

🛡️ Utilisation éthique et licences

Lignes directrices éthiques pour l'IA

Le développement et le déploiement de textembedding-gecko-multilingual@001 respectent scrupuleusement les principes éthiques de l'IA. Les développeurs sont vivement encouragés à examiner attentivement les implications de l'utilisation de modèles d'intégration, notamment en ce qui concerne la confidentialité des données, la sécurité et les biais algorithmiques potentiels dans leurs applications.

Informations sur les licences

Le modèle texteembedding-gecko-multilingual@001 n'est pas libre de droits. Son utilisation est soumise à des accords de licence spécifiques établis par Google. Les utilisateurs doivent consulter les conditions d'utilisation et les politiques de confidentialité associées afin de s'assurer de leur conformité.

❓ Foire aux questions (FAQ)

Q1 : Qu'est-ce que texteembedding-gecko-multilingual@001 ?

Il s'agit d'un modèle d'intégration de texte de pointe développé par Google, conçu pour convertir du texte en représentations vectorielles numériques qui capturent le sens sémantique dans plusieurs langues.

Q2 : Quelles langues le modèle prend-il en charge ?

Le modèle offre une prise en charge multilingue pour un large éventail de langues, notamment l'arabe, le bengali, le chinois, l'anglais, le français, l'hindi et l'espagnol.

Q3 : Quelles sont ses performances par rapport aux autres modèles ?

Il atteint un score moyen de 66,31 sur le benchmark MTEB, surpassant les modèles plus grands et ceux avec des plongements de dimension supérieure tout en étant plus compact.

Q4 : Quels sont les principaux cas d'utilisation de ce modèle ?

Ses utilisations prévues incluent la recherche sémantique, la classification de textes, la récupération de documents, le clustering, les systèmes de recommandation et la détection des valeurs aberrantes.

Q5 : Textembedding-gecko-multilingual@001 est-il un modèle open source ?

Non, ce modèle n'est pas libre de droits. Son utilisation est soumise à des accords de licence spécifiques définis par Google, et les utilisateurs sont invités à consulter les conditions d'utilisation.

Terrain de jeu de l'IA

Testez tous les modèles d'API dans l'environnement de test avant de les intégrer. Nous proposons plus de 300 modèles à intégrer à votre application.

Essai gratuit

Une API
Plus de 300 modèles d'IA

Économisez 20 % sur vos coûts