qwen-bg
max-ico04
2K
出去
max-ico02
聊天
max-ico03
禁用
文本多语言嵌入-002
探索 Text-multilingual-embedding-002 API,这是一个强大的多语言文本嵌入模型,可增强跨语言的 NLP 应用。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        const { OpenAI } = require('openai');

const main = async () => {
  const api = new OpenAI({ apiKey: '', baseURL: 'https://api.ai.cc/v1' });

  const text = 'Your text string goes here';
  const response = await api.embeddings.create({
    input: text,
    model: 'text-multilingual-embedding-002',
  });
  const embedding = response.data[0].embedding;

  console.log(embedding);
};

main();            
                                
                                        import json
from openai import OpenAI


def main():
    client = OpenAI(
        base_url="https://api.ai.cc/v1",
        api_key="",
    )

    text = "Your text string goes here"

    response = client.embeddings.create(input=text, model="text-multilingual-embedding-002")
    embedding = response.data[0].embedding

    print(json.dumps(embedding, indent=2))


main()   
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
qwenmax-bg
图片
文本多语言嵌入-002

产品详情

介绍 Text-multilingual-embedding-002

文本多语言嵌入-002 Google Cloud 的这款模型代表了自然语言处理 (NLP) 领域的一项重大进步。该模型于 2019 年发布。 2023年3月该最先进的文本嵌入模型旨在将文本数据转换为高质量的数值向量表示,能够精准地捕捉多种语言的语义含义和上下文细微差别。

它的核心优势在于其无与伦比的多语言支持,使其成为需要复杂语言理解能力的全球应用程序不可或缺的工具。

⭐ 主要型号详情

  • 型号名称: 文本多语言嵌入-002
  • 开发者: Google Cloud
  • 发布日期: 2023年3月
  • 版本: 002
  • 型号: 文本嵌入

🚀核心能力

  • 支持 超过100种语言从而实现真正的全球覆盖。
  • 生成 高质量的语义嵌入 准确反映文本含义。
  • 针对各种自然语言处理任务进行了微调确保多功能性和高性能。
  • 优惠 高效的推理速度这对实时应用至关重要。
  • 演示 对各种语言结构的稳健性

🎯 预期用途

这款功能强大的模型非常适合各种多语言和跨语言应用,包括:

  • 跨语言搜索引擎 用于准确检索全球信息。
  • 多语言聊天机器人 能够有效跨越语言障碍进行沟通。
  • 情感分析 了解不同语言的民意。
  • 增强型 语言翻译服务 更好地理解上下文。
  • 复杂的 内容推荐系统 专为不同受众量身打造。

值得注意的是,Text-multilingual-embedding-002 在临床文档和研究的跨语言应用方面表现出色。如需了解更多关于此模型及其他医疗保健领域人工智能模型的信息,您可以点击此处了解更多。 这里 (参考原文中题为“医疗保健领域的人工智能:生成式人工智能的应用与实例”的文章中关于“临床文档和研究”的部分)

⚙️ 技术规格

建筑学

该模型的基础是高效的 Transformer架构该设计利用自注意力机制来高效地处理和生成嵌入,从而巧妙地捕捉多种语言中词语之间复杂的上下文关系。

培训数据与多样性

文本多语言嵌入-002 接受过相关培训 广泛且多样化的数据集10亿个句子 语料库收集自书籍、网站和其他各种多语言资源。这个庞大的训练语料库确保了对语言细微差别的全面理解,并有助于在不同语言和语境中进行有效的概括。

该模型的知识截至目前有效。 2023年3月虽然我们努力通过各种数据源来减少偏见,但必须承认,与所有大型语言模型一样,训练数据中存在的一些固有偏见仍然可能会反映出来。

📊 性能基准测试

大规模文本嵌入基准测试 (MTEB)

在 MTEB 基准测试中的表现突显了该模型的高精度,尤其是在 检索和分类场景关键指标包括:

  • nDCG@10: 60.8
  • 回忆@100: 92.4

这些结果证实了该模型在对相关文档进行排序以及从大型复杂数据集中高效检索信息方面的能力。此外,该模型还展现出卓越的鲁棒性,即使面对涵盖多种语言和结构的多样化用户生成内容(UGC),也能始终保持良好的性能。

比较分析

Text-multilingual-embedding-002 与其他领先的多语言嵌入模型相比,展现出极具竞争力的性能。在 MTEB 评估中,它取得了平均成绩。 准确度为 64.0 在各项任务中,它都展现出了强大的处理多语言查询的能力。

该模型在同类模型中表现显著优于几个已有的模型:

  • Text-multilingual-embedding-002: 64.0(平均准确率)
  • LaBSE(与语言无关的BERT句子嵌入):45.2
  • 凝聚度:64.0
  • 最佳生成嵌入 (BGE):64.2

💡 使用与集成

API 访问和代码示例

文本多语言嵌入-002 该模型很容易获取。 AI/ML API平台可识别为 "text-multilingual-embedding-002"平台内提供了实用的代码示例,以方便快速集成。

(参考: AI/ML API平台,第“代码示例”部分

API 文档

有关集成和详细使用说明的全面指南,请参阅 API 文档 可在AI/ML API网站上获取。

⚖️ 伦理人工智能与许可

Text-multilingual-embedding-002 的开发遵循严格的规范。 符合伦理的人工智能实践强调在设计和应用中的透明度、公平性和问责制。

该模型可在以下渠道获取: 商业许可允许商业和非商业用途,但须遵守 Google Cloud 制定的服务条款。

常见问题解答 (FAQ)

Q1: 什么是 Text-multilingual-embedding-002?

一个: 这是Google云于 2023 年 3 月发布的尖端文本嵌入模型,旨在将文本转换为数值向量表示,以捕捉 100 多种语言的语义含义和上下文。

Q2:它支持多少种语言?

一个: 该模型支持 100 多种语言,包括英语、西班牙语、法语、中文和阿拉伯语等广泛使用的语言,使其具有很强的全球应用灵活性。

Q3:该模型的主要应用场景是什么?

一个: 它非常适合用于跨语言搜索引擎、多语言聊天机器人、情感分析、语言翻译服务和内容推荐系统。此外,它在临床文档和研究领域也有特定的应用。

Q4:它的性能与其他型号相比如何?

一个: Text-multilingual-embedding-002 表现出了强大的竞争力,在 MTEB 基准测试中达到了平均 64.0 的准确率,在各种任务中与 LaBSE 和 Cohere 等模型相媲美或更胜一筹。

Q5:是否可用于商业用途?

一个: 是的,Text-multilingual-embedding-002 已获得商业许可,允许商业和非商业用途,但须遵守 Google Cloud 的服务条款。

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用