Afuera

Charlar

desactivar

Incrustaciones de texto multilingües-002

Descubra la API Text-multilingual-embedding-002, un potente modelo para la incrustación de texto multilingüe que mejora las aplicaciones de PLN en diferentes idiomas.

Fichas de $1 gratis para nuevos miembros

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const main = async () => {
  const api = new OpenAI({ apiKey: '', baseURL: 'https://api.ai.cc/v1' });

  const text = 'Your text string goes here';
  const response = await api.embeddings.create({
    input: text,
    model: 'text-multilingual-embedding-002',
  });
  const embedding = response.data[0].embedding;

  console.log(embedding);
};

main();

                                        import json
from openai import OpenAI


def main():
    client = OpenAI(
        base_url="https://api.ai.cc/v1",
        api_key="",
    )

    text = "Your text string goes here"

    response = client.embeddings.create(input=text, model="text-multilingual-embedding-002")
    embedding = response.data[0].embedding

    print(json.dumps(embedding, indent=2))


main()

Docs

Más de 300 modelos de IA para OpenClaw y agentes de IA

Ahorra un 20% en costes y obtén fichas gratis de 1 $.

Obtén la clave API Explorar modelos

Incrustaciones de texto multilingües-002

Detalles del producto

Presentación de Text-multilingual-embedding-002

El Incrustaciones de texto multilingües-002 El modelo de Google Cloud representa un avance significativo en el procesamiento del lenguaje natural (PLN). Lanzado en Marzo de 2023Este modelo de incrustación de texto de última generación está diseñado para transformar datos textuales en representaciones vectoriales numéricas de alta calidad, capturando con precisión el significado semántico y los matices contextuales en una multitud de idiomas.

Su principal fortaleza reside en su incomparable soporte multilingüe, lo que la convierte en una herramienta indispensable para aplicaciones globales que requieren una comprensión lingüística sofisticada.

⭐ Detalles del modelo clave

Nombre del modelo: Incrustaciones de texto multilingües-002
Revelador: Google Cloud
Fecha de lanzamiento: Marzo de 2023
Versión: 002
Tipo de modelo: Incrustaciones de texto

🚀 Capacidades principales

Soportes más de 100 idiomas, lo que permite un alcance verdaderamente global.
Genera incrustaciones semánticas de alta calidad que reflejen con precisión el significado del texto.
Optimizado para diversas tareas de PNL., garantizando versatilidad y rendimiento.
Ofertas velocidad de inferencia eficientecrucial para aplicaciones en tiempo real.
Demuestra robustez frente a diversas estructuras lingüísticas.

🎯 Aplicaciones previstas

Este potente modelo es ideal para un amplio espectro de aplicaciones multilingües e interlingüísticas, entre las que se incluyen:

Motores de búsqueda multilingües para una recuperación precisa de información global.
Chatbots multilingües que puedan comunicarse eficazmente superando las barreras lingüísticas.
Análisis de sentimientos comprender la opinión pública en diferentes idiomas.
Mejorado servicios de traducción de idiomas con una mejor comprensión del contexto.
Sofisticado sistemas de recomendación de contenido Diseñado para públicos diversos.

Cabe destacar que Text-multilingual-embedding-002 sobresale en aplicaciones multilingües para la documentación clínica y la investigación. Para obtener más información sobre este y otros modelos de IA en el sector sanitario, puede consultar más información. aquí (haciendo referencia a la sección del contenido original sobre "Documentación e investigación clínica" del artículo titulado "IA en la atención médica: usos y ejemplos de IA generativa").

⚙️ Especificaciones técnicas

Arquitectura

La base del modelo es la alta eficacia Arquitectura de transformadoresEste diseño aprovecha los mecanismos de autoatención para procesar y generar de manera eficiente incrustaciones que capturan con destreza las intrincadas relaciones contextuales entre palabras en múltiples idiomas.

Datos de formación y diversidad

Incrustaciones de texto multilingües-002 fue entrenado en un conjunto de datos extenso y diverso, que comprende aproximadamente mil millones de oraciones Recopilado a partir de libros, sitios web y diversas fuentes multilingües. Este extenso corpus de entrenamiento garantiza una comprensión integral de los matices lingüísticos y facilita una generalización sólida en diferentes idiomas y contextos.

El conocimiento del modelo está actualizado a partir de Marzo de 2023Si bien se hicieron esfuerzos para minimizar el sesgo mediante diversas fuentes de datos, es importante reconocer que, como ocurre con todos los modelos de lenguaje de gran tamaño, algunos sesgos inherentes presentes en los datos de entrenamiento aún pueden reflejarse.

📊 Puntos de referencia de rendimiento

Prueba de referencia de incrustación masiva de texto (MTEB)

El rendimiento en el benchmark MTEB subraya la alta precisión del modelo, particularmente en escenarios de recuperación y clasificaciónLas métricas clave incluyen:

✅ nDCG@10: 60.8
✅ Recordatorio a los 100 años: 92.4

Estos resultados confirman la eficacia del modelo para clasificar documentos relevantes y recuperar información de forma eficiente a partir de conjuntos de datos grandes y complejos. Además, ha demostrado una robustez excepcional, con un rendimiento óptimo incluso con contenido generado por el usuario (UGC) diverso, en distintos idiomas y estructuras.

Análisis comparativo

Text-multilingual-embedding-002 muestra un rendimiento altamente competitivo frente a otros modelos líderes de incrustación multilingüe. En las evaluaciones de MTEB, logró un promedio Precisión de 64,0 en diversas tareas, destacando su capacidad para gestionar consultas multilingües.

El modelo superó notablemente a varios modelos consolidados en su categoría:

Text-multilingual-embedding-002: 64,0 (Precisión media)
LaBSE (Incrustación de oraciones BERT independiente del idioma): 45.2
Cohere: 64.0
BGE (Mejor incrustación generativa): 64,2

💡 Uso e integración

Acceso a la API y ejemplos de código

El Incrustaciones de texto multilingües-002 El modelo está fácilmente disponible en el Plataforma API de IA/ML, identificable como "text-multilingual-embedding-002"La plataforma incluye ejemplos de código prácticos para facilitar una integración rápida.

(Referencia: Plataforma API de IA/ML, sección "Ejemplos de código")

Documentación de la API

Para obtener una guía completa sobre la integración y las instrucciones de uso detalladas, consulte el Documentación de la API Disponible en el sitio web de la API de IA/ML.

⚖️ IA ética y licencias

El desarrollo de Text-multilingual-embedding-002 se adhiere a criterios rigurosos. prácticas éticas de IA, haciendo hincapié en la transparencia, la equidad y la rendición de cuentas en su diseño y aplicación.

El modelo está disponible en licencias comerciales, permitiendo tanto el uso comercial como el no comercial, sujeto a los términos de servicio establecidos por Google Cloud.

Preguntas frecuentes (FAQ)

P1: ¿Qué es Text-multilingual-embedding-002?

A: Se trata de un modelo de incrustación de texto de vanguardia de Google Cloud, lanzado en marzo de 2023, diseñado para convertir texto en representaciones vectoriales numéricas que capturan el significado semántico y el contexto en más de 100 idiomas.

P2: ¿Cuántos idiomas admite?

A: El modelo admite más de 100 idiomas, incluidos algunos de uso común como el inglés, el español, el francés, el chino y el árabe, lo que lo hace muy versátil para aplicaciones globales.

P3: ¿Cuáles son los principales casos de uso de este modelo?

A: Es ideal para motores de búsqueda multilingües, chatbots multilingües, análisis de sentimientos, servicios de traducción y sistemas de recomendación de contenido. También tiene aplicaciones específicas en documentación clínica e investigación.

P4: ¿Cómo se compara su rendimiento con el de otros modelos?

A: El modelo Text-multilingual-embedding-002 demuestra un rendimiento competitivo, alcanzando una precisión media del 64,0 % en el conjunto de datos de referencia MTEB, igualando o superando a modelos como LaBSE y Cohere en diversas tareas.

P5: ¿Está disponible para uso comercial?

A: Sí, Text-multilingual-embedding-002 está disponible bajo una licencia comercial, que permite tanto el uso comercial como el no comercial, sujeto a los términos de servicio de Google Cloud.

Campo de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.

Pruébalo gratis

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos

Fichas de $1 gratis para nuevos miembros