qwen-bg
ico máximo04
2K
En
Afuera
ico-máximo02
Charlar
ico-máximo03
desactivar
Incrustación de texto-gecko-multilingüe@001
Explore la API del modelo textembedding-gecko-multilingual@001, su arquitectura, datos de entrenamiento, rendimiento y aplicaciones en tareas de PLN.
Fichas de $1 gratis para nuevos miembros
Text to Speech
                                        const { OpenAI } = require('openai');

const main = async () => {
  const api = new OpenAI({ apiKey: '', baseURL: 'https://api.ai.cc/v1' });

  const text = 'Your text string goes here';
  const response = await api.embeddings.create({
    input: text,
    model: 'textembedding-gecko-multilingual@001',
  });
  const embedding = response.data[0].embedding;

  console.log(embedding);
};

main();            
                                
                                        import json
from openai import OpenAI


def main():
    client = OpenAI(
        base_url="https://api.ai.cc/v1",
        api_key="",
    )

    text = "Your text string goes here"

    response = client.embeddings.create(input=text, model="textembedding-gecko-multilingual@001")
    embedding = response.data[0].embedding

    print(json.dumps(embedding, indent=2))


main()   
Docs

Más de 300 modelos de IA para OpenClaw y agentes de IA

Ahorra un 20% en costes y obtén fichas gratis de 1 $.
qwenmax-bg
imagen
Incrustación de texto-gecko-multilingüe@001

Detalles del producto

Modelo textembedding-gecko-multilingual@001 de Google

El incrustación de texto-gecko-multilingüe@001 El modelo, lanzado por Google el 30 de abril de 2024, representa un avance significativo en el procesamiento del lenguaje natural (PLN). Como modelo de incrustación de texto de última generación, se especializa en transformar diversos datos textuales en representaciones vectoriales numéricas precisas, capturando eficazmente significados y relaciones semánticas en numerosos idiomas.

✨ Capacidades y características clave

  • Alta capacidad: Admite hasta 3072 tokens de entrada, lo que permite un análisis de texto exhaustivo.
  • Salida vectorial: Genera incrustaciones vectoriales detalladas de 768 dimensiones, ideales para una comprensión semántica matizada.
  • Excelencia de referencia: Logra un rendimiento superior en la prueba de referencia Massive Text Embedding Benchmark (MTEB), estableciendo nuevos estándares en la industria.
  • Formación innovadora: Utiliza un novedoso conjunto de datos de ajuste fino (FRet) para mejorar las capacidades de generación de consultas y pasajes.
  • Soporte multilingüe: Diseñado para ofrecer una amplia cobertura lingüística, incluyendo árabe, bengalí, chino, inglés, francés, hindi y español.

💡 Aplicaciones previstas

Este modelo versátil está diseñado para potenciar una amplia gama de aplicaciones de PLN:

  • 🔍Búsqueda semántica: Mejora la relevancia y la precisión de los resultados de búsqueda comprendiendo la intención del usuario.
  • 🏷️Clasificación de texto: Clasifique documentos y fragmentos de texto de manera eficiente.
  • 📚Recuperación de documentos: Mejorar el descubrimiento de información relevante en grandes conjuntos de datos.
  • 📊Agrupación y recomendación: Agrupa artículos similares y obtén sugerencias personalizadas.
  • 🚨Detección de valores atípicos: Identificar anomalías o patrones inusuales en datos textuales.

Especificaciones técnicas

Arquitectura

El modelo textembedding-gecko-multilingual@001 utiliza una arquitectura de representación vectorial densa, característica de los modelos de lenguaje grandes y avanzados (LLM). Emplea sofisticadas metodologías de aprendizaje profundo para producir incrustaciones que reflejan con precisión el intrincado contexto semántico de cualquier texto de entrada.

Datos de formación y diversidad

Entrenado con un conjunto de datos diverso generado mediante un proceso LLM único de dos pasos, el modelo primero genera consultas y pasajes relevantes, y luego los clasifica para crear un conjunto de datos robusto para el ajuste fino. Esto garantiza una amplia cobertura de tareas y un rendimiento mejorado. Si bien la diversidad es un principio de diseño clave para mitigar los sesgos, la evaluación continua es vital para corregir cualquier sesgo que surja de los datos de entrenamiento.

umbral de conocimiento

La base de conocimientos del modelo está actualizada a partir de Abril de 2024, reflejando la información más reciente disponible en ese momento.

🚀 Métricas de rendimiento sin igual

El modelo textembedding-gecko-multilingual@001 muestra un rendimiento excepcional, particularmente en el Prueba de referencia de incrustación masiva de texto (MTEB)Esta exhaustiva evaluación comparativa analiza modelos en siete categorías y 56 conjuntos de datos.

📊Puntuación media del MTEB: 66.31 con incrustaciones de 768 dimensiones.

Esta puntuación excepcional lo posiciona como líder del mercado, superando a modelos hasta 7 veces más grandes y a aquellos con incrustaciones de mayor dimensión (hasta 4096 dimensiones), todo ello manteniendo un tamaño compacto de tan solo 1200 millones de parámetros.

Excelencia en tareas específicas

El modelo demuestra capacidades superiores en las tareas principales de PLN:

  • 🏷️Clasificación de texto: 81.17
  • ↔️Similitud textual semántica: 85.06
  • 📝Resumen: 32,63
  • 🔎Tareas de recuperación: 55,70

Generalización de cero disparos

Una característica destacable es su gran capacidad de generalización sin entrenamiento previo, especialmente cuando se entrena exclusivamente con el conjunto de datos sintético FRet. Esto le permite adaptarse eficazmente a tareas desconocidas sin exposición previa a conjuntos de datos específicos, superando a menudo a diversos métodos de referencia de la competencia.

🛠️ Cómo usar y acceder

Integración y ejemplos de código

El modelo textembedding-gecko-multilingual@001 está disponible fácilmente en el Plataforma API de IA/MLPuedes integrarlo en tus aplicaciones utilizando la siguiente estructura de código:

Para obtener más detalles, visite el Plataforma API de IA/ML.

Documentación completa de la API

Las instrucciones detalladas para la integración y el uso están disponibles a través del sitio web oficial. Documentación de la API Disponible en el sitio web de la API de IA/ML.

🛡️ Uso ético y licencias

Directrices éticas sobre la IA

El desarrollo y la implementación de textembedding-gecko-multilingual@001 se adhieren estrictamente a los principios éticos de la IA. Se recomienda encarecidamente a los desarrolladores que consideren cuidadosamente las implicaciones del uso de modelos de incrustación, especialmente en lo que respecta a la privacidad de los datos, la seguridad y los posibles sesgos algorítmicos en sus aplicaciones.

Información sobre licencias

El modelo textembedding-gecko-multilingual@001 no es de código abierto. Su uso se rige por acuerdos de licencia específicos establecidos por Google. Los usuarios deben revisar los términos de servicio y las políticas de privacidad correspondientes para garantizar su cumplimiento.

❓ Preguntas frecuentes (FAQ)

P1: ¿Qué es textembedding-gecko-multilingual@001?

Se trata de un modelo de incrustación de texto de última generación desarrollado por Google, diseñado para convertir texto en representaciones vectoriales numéricas que capturan el significado semántico en varios idiomas.

P2: ¿Qué idiomas admite el modelo?

El modelo ofrece soporte multilingüe para una amplia gama de idiomas, entre los que se incluyen, entre otros, el árabe, el bengalí, el chino, el inglés, el francés, el hindi y el español.

P3: ¿Cómo se compara su rendimiento con el de otros modelos?

Obtiene una puntuación media de 66,31 en la prueba de referencia MTEB, superando a los modelos más grandes y a aquellos con incrustaciones de mayor dimensión, a la vez que resulta más compacto.

P4: ¿Cuáles son los principales casos de uso de este modelo?

Entre sus usos previstos se incluyen la búsqueda semántica, la clasificación de textos, la recuperación de documentos, la agrupación de datos, los sistemas de recomendación y la detección de valores atípicos.

P5: ¿Textembedding-gecko-multilingual@001 es un modelo de código abierto?

No, el modelo no es de código abierto. Su uso está sujeto a acuerdos de licencia específicos definidos por Google, y los usuarios deben revisar los términos del servicio.

Campo de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos