qwen-bg
max-ico04
2K
出去
max-ico02
聊天
max-ico03
禁用
文本嵌入-gecko-multilingual@001
探索 textembedding-gecko-multilingual@001 模型 API、其架构、训练数据、性能以及在 NLP 任务中的应用。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        const { OpenAI } = require('openai');

const main = async () => {
  const api = new OpenAI({ apiKey: '', baseURL: 'https://api.ai.cc/v1' });

  const text = 'Your text string goes here';
  const response = await api.embeddings.create({
    input: text,
    model: 'textembedding-gecko-multilingual@001',
  });
  const embedding = response.data[0].embedding;

  console.log(embedding);
};

main();            
                                
                                        import json
from openai import OpenAI


def main():
    client = OpenAI(
        base_url="https://api.ai.cc/v1",
        api_key="",
    )

    text = "Your text string goes here"

    response = client.embeddings.create(input=text, model="textembedding-gecko-multilingual@001")
    embedding = response.data[0].embedding

    print(json.dumps(embedding, indent=2))


main()   
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
qwenmax-bg
图片
文本嵌入-gecko-multilingual@001

产品详情

Google 的 textembedding-gecko-multilingual@001 模型

文本嵌入-gecko-multilingual@001 该模型由Google于2024年4月30日发布,代表了自然语言处理(NLP)领域的一项重大进步。作为一种最先进的文本嵌入模型,它专门用于将各种文本数据转换为精确的数值向量表示,从而有效地捕捉多种语言的语义含义和关系。

✨ 主要功能和特性

  • 高容量: 支持最多 3,072 个输入标记,从而可以进行全面的文本分析。
  • 矢量输出: 生成详细的 768 维向量嵌入,非常适合进行细致的语义理解。
  • 标杆卓越: 在大规模文本嵌入基准测试 (MTEB) 中取得了优异的性能,树立了新的行业标准。
  • 创新培训: 利用新型微调数据集(FRet)来增强查询和段落生成能力。
  • 多语言支持: 专为广泛的语言覆盖而设计,包括阿拉伯语、孟加拉语、中文、英语、法语、印地语和西班牙语。

💡 预期用途

这款多功能模型旨在为各种自然语言处理应用提供支持:

  • 🔍语义搜索: 通过了解用户意图,提高搜索结果的相关性和准确性。
  • 🏷️文本分类: 高效地对文档和文本片段进行分类。
  • 📚文档检索: 增强从大型数据集中发现相关信息的能力。
  • 📊聚类与推荐: 将相似商品归类并提供个性化推荐。
  • 🚨异常值检测: 识别文本数据中的异常或不寻常模式。

技术规格

建筑学

textembedding-gecko-multilingual@001 模型采用密集向量表示架构,这是高级大型语言模型 (LLM) 的典型特征。它运用复杂的深度学习方法生成嵌入向量,能够准确反映任何输入文本的复杂语义上下文。

培训数据与多样性

该模型基于独特的两步LLM流程生成的多样化数据集进行训练。首先,模型生成查询和相关段落,然后对它们进行排序,从而创建一个稳健的微调数据集。这确保了广泛的任务覆盖范围和更高的性能。虽然多样性是减少偏差的关键设计原则,但持续评估对于解决训练数据中出现的任何新偏差也至关重要。

知识门槛

该模型的知识库截至目前是最新的。 2024年4月反映了当时可获得的最新信息。

🚀 无与伦比的性能指标

textembedding-gecko-multilingual@001 模型展现出卓越的性能,尤其是在以下方面: 大规模文本嵌入基准测试 (MTEB)该综合基准测试评估了七个类别和 56 个数据集上的模型。

📊平均 MTEB 分数: 66.31 采用 768 维嵌入。

这一卓越的分数使其成为市场领导者,其性能优于规模大 7 倍的模型以及具有更高维度嵌入(高达 4096 维)的模型,同时保持了仅 12 亿个参数的紧凑规模。

任务特定卓越性

该模型在核心自然语言处理任务中展现出卓越的性能:

  • 🏷️文本分类: 81.17
  • ↔️语义文本相似度: 85.06
  • 📝总结: 32.63
  • 🔎检索任务: 55.70

零样本泛化

其显著特点是强大的零样本泛化能力,尤其是在仅使用合成的FRet数据集进行训练时。这使得它能够在无需事先联系特定数据集的情况下有效地适应未见过的任务,并且通常优于各种竞争基线模型。

🛠️ 如何使用和访问

集成与代码示例

textembedding-gecko-multilingual@001 模型可轻松获取。 AI/ML API平台您可以使用以下代码结构将其集成到您的应用程序中:

更多详情,请访问 AI/ML API平台

完整的 API 文档

有关集成和使用的详细指南可通过官方网站获取。 API 文档 可在 AI/ML API 网站上找到。

🛡️ 合乎道德的使用和许可

人工智能伦理准则

textembedding-gecko-multilingual@001 的开发和部署严格遵循人工智能伦理原则。我们强烈建议开发者仔细考虑使用嵌入模型可能带来的影响,尤其是在数据隐私、安全以及应用中潜在的算法偏差方面。

许可信息

textembedding-gecko-multilingual@001 模型并非开源软件。其使用受 Google 制定的特定许可协议约束。用户必须阅读相关的服务条款和隐私政策,以确保遵守相关规定。

❓ 常见问题解答 (FAQ)

Q1: 什么是 textembedding-gecko-multilingual@001?

这是Google开发的一种最先进的文本嵌入模型,旨在将文本转换为能够捕捉多种语言语义的数值向量表示。

Q2:该模型支持哪些语言?

该模型提供多种语言支持,包括但不限于阿拉伯语、孟加拉语、中文、英语、法语、印地语和西班牙语。

Q3:与其他型号相比,它的性能如何?

它在 MTEB 基准测试中取得了 66.31 的平均分,优于更大的模型和具有更高维度嵌入的模型,同时更加紧凑。

Q4:该模型的主要应用场景是什么?

其预期用途包括语义搜索、文本分类、文档检索、聚类、推荐系统和异常值检测。

Q5:textembedding-gecko-multilingual@001 是开源模型吗?

不,该模型并非开源。其使用须遵守Google制定的特定许可协议,用户应仔细阅读服务条款。

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用