Fora

Bater papo

desativar

Textembedding-gecko-multilingual@001

Explore a API do modelo textembedding-gecko-multilingual@001, sua arquitetura, dados de treinamento, desempenho e aplicações em tarefas de PNL (Processamento de Linguagem Natural).

Tokens de $1 grátis para novos membros

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const main = async () => {
  const api = new OpenAI({ apiKey: '', baseURL: 'https://api.ai.cc/v1' });

  const text = 'Your text string goes here';
  const response = await api.embeddings.create({
    input: text,
    model: 'textembedding-gecko-multilingual@001',
  });
  const embedding = response.data[0].embedding;

  console.log(embedding);
};

main();

                                        import json
from openai import OpenAI


def main():
    client = OpenAI(
        base_url="https://api.ai.cc/v1",
        api_key="",
    )

    text = "Your text string goes here"

    response = client.embeddings.create(input=text, model="textembedding-gecko-multilingual@001")
    embedding = response.data[0].embedding

    print(json.dumps(embedding, indent=2))


main()

Docs

Mais de 300 modelos de IA para OpenClaw e agentes de IA

Economize 20% nos custos e ganhe tokens grátis de $1.

Obter chave de API Explorar modelos

Textembedding-gecko-multilingual@001

Detalhes do produto

Modelo textembedding-gecko-multilingual@001 do Google

O textembedding-gecko-multilingual@001 O modelo, lançado pelo Google em 30 de abril de 2024, representa um avanço significativo no processamento de linguagem natural (PLN). Como um modelo de incorporação de texto de última geração, ele se especializa em transformar diversos dados textuais em representações vetoriais numéricas precisas, capturando com eficácia significados e relações semânticas em vários idiomas.

✨ Principais funcionalidades e recursos

✅Alta capacidade: Suporta até 3.072 tokens de entrada, permitindo uma análise de texto abrangente.
✅Saída vetorial: Gera representações vetoriais detalhadas de 768 dimensões, ideais para uma compreensão semântica refinada.
✅Excelência referenciada: Obtém desempenho superior no Massive Text Embedding Benchmark (MTEB), estabelecendo novos padrões da indústria.
✅Treinamento inovador: Utiliza um novo conjunto de dados de ajuste fino (FRet) para aprimorar os recursos de geração de consultas e passagens.
✅Suporte multilíngue: Projetado para ampla cobertura de idiomas, incluindo árabe, bengali, chinês, inglês, francês, hindi e espanhol.

💡 Aplicações pretendidas

Este modelo versátil foi projetado para viabilizar uma ampla gama de aplicações de PNL (Processamento de Linguagem Natural):

🔍Busca semântica: Melhore a relevância e a precisão dos resultados de pesquisa compreendendo a intenção.
🏷️Classificação de texto: Classifique documentos e trechos de texto de forma eficiente.
📚Recuperação de Documentos: Aprimorar a descoberta de informações relevantes em grandes conjuntos de dados.
📊Agrupamento e recomendação: Agrupe itens semelhantes e forneça sugestões personalizadas.
🚨Detecção de outliers: Identificar anomalias ou padrões incomuns em dados textuais.

Especificações técnicas

Arquitetura

O modelo textembedding-gecko-multilingual@001 utiliza uma arquitetura de representação vetorial densa, característica de modelos de linguagem de grande porte (LLMs) avançados. Ele emprega metodologias sofisticadas de aprendizado profundo para produzir embeddings que refletem com precisão o contexto semântico complexo de qualquer texto de entrada.

Dados de treinamento e diversidade

Treinado em um conjunto de dados diversificado gerado por meio de um processo LLM exclusivo de duas etapas, o modelo primeiro gera consultas e trechos relevantes e, em seguida, os classifica para criar um conjunto de dados robusto para ajuste fino. Isso garante ampla cobertura de tarefas e desempenho aprimorado. Embora a diversidade seja um princípio fundamental de design para mitigar vieses, a avaliação contínua é vital para lidar com quaisquer vieses emergentes dos dados de treinamento.

Limite de conhecimento

A base de conhecimento do modelo está atualizada até a data de Abril de 2024, refletindo as informações mais recentes disponíveis naquele momento.

🚀 Métricas de desempenho incomparáveis

O modelo textembedding-gecko-multilingual@001 apresenta desempenho excepcional, particularmente no Benchmark de Incorporação de Texto Massivo (MTEB)Este abrangente teste comparativo avalia modelos em sete categorias e 56 conjuntos de dados.

📊Pontuação média no MTEB: 66,31 com incorporações de 768 dimensões.

Essa pontuação excepcional o posiciona como líder de mercado, superando modelos até 7 vezes maiores e aqueles com embeddings de dimensões mais altas (até 4096 dimensões), tudo isso mantendo um tamanho compacto de apenas 1,2 bilhão de parâmetros.

Excelência específica para cada tarefa

O modelo demonstra capacidades superiores em tarefas essenciais de PNL (Processamento de Linguagem Natural):

🏷️Classificação de texto: 81,17
↔️Similaridade textual semântica: 85,06
📝Resumo: 32,63
🔎Tarefas de recuperação: 55,70

Generalização Zero-Shot

Uma característica notável é sua forte capacidade de generalização zero-shot, especialmente quando treinada exclusivamente no conjunto de dados sintético FREt. Isso permite que ela se adapte efetivamente a tarefas não vistas sem exposição prévia a conjuntos de dados específicos, muitas vezes superando diversas linhas de base competitivas.

🛠️ Como usar e acessar

Integração e exemplos de código

O modelo textembedding-gecko-multilingual@001 está prontamente disponível no Plataforma de API de IA/MLVocê pode integrá-lo em seus aplicativos usando a seguinte estrutura de código:

Para obter mais detalhes, visite o Plataforma de API de IA/ML.

Documentação completa da API

Orientações detalhadas para integração e utilização estão disponíveis no site oficial. Documentação da API disponibilizado no site da API de IA/ML.

🛡️ Uso Ético e Licenciamento

Diretrizes Éticas para IA

O desenvolvimento e a implementação do textembedding-gecko-multilingual@001 seguem rigorosamente os princípios éticos da IA. Recomenda-se fortemente que os desenvolvedores considerem cuidadosamente as implicações do uso de modelos de incorporação, especialmente no que diz respeito à privacidade dos dados, à segurança e aos potenciais vieses algorítmicos em suas aplicações.

Informações sobre licenciamento

O modelo textembedding-gecko-multilingual@001 não é de código aberto. Seu uso é regido por contratos de licenciamento específicos estabelecidos pelo Google. Os usuários devem revisar os termos de serviço e as políticas de privacidade associados para garantir a conformidade.

❓ Perguntas frequentes (FAQ)

Q1: O que é textembedding-gecko-multilingual@001?

Trata-se de um modelo de incorporação de texto de última geração desenvolvido pelo Google, projetado para converter texto em representações vetoriais numéricas que capturam o significado semântico em vários idiomas.

Q2: Quais idiomas o modelo suporta?

O modelo oferece suporte multilíngue para uma ampla gama de idiomas, incluindo, entre outros, árabe, bengali, chinês, inglês, francês, hindi e espanhol.

P3: Como ele se compara a outros modelos em termos de desempenho?

Ele alcança uma pontuação média de 66,31 no benchmark MTEB, superando modelos maiores e aqueles com embeddings de dimensões mais altas, ao mesmo tempo que é mais compacto.

Q4: Quais são os principais casos de uso para este modelo?

Suas aplicações pretendidas incluem busca semântica, classificação de texto, recuperação de documentos, agrupamento, sistemas de recomendação e detecção de outliers.

Q5: textembedding-gecko-multilingual@001 é um modelo de código aberto?

Não, o modelo não é de código aberto. Seu uso está sujeito a contratos de licenciamento específicos definidos pelo Google, e os usuários devem consultar os termos de serviço.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Experimente grátis

Mais de 300 modelos de IA para
OpenClaw e Agentes de IA

Economize 20% nos custos