32K

在

出去

聊天

禁用

QVQ-72B-预览

探索 QVQ-72B-Preview，这是一款实验性的多模态 AI 模型，旨在增强视觉推理能力，并具有强大的性能基准。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'qwen/qvq-72b-preview',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="qwen/qvq-72b-preview",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

QVQ-72B-预览

产品详情

✨ QVQ-72B-预览：释放先进的多模态人工智能

介绍 QVQ-72B-预览创新实验研究模型 Qwen 团队正式发布于 2024年12月25日这项最先进的多模态语言模型它旨在显著提升视觉推理能力，无缝集成对文本和视觉输入的高级处理功能。它尤其擅长解决需要深入理解视觉内容的复杂问题。

基本信息：

型号名称： QVQ-72B-预览
开发者/创建者： Qwen 团队
发布日期： 2024年12月25日
版本： 1.0
型号： 多模态语言模型

🚀 主要特性和功能

✅ 多模态推理： 运用文字和图像进行处理和推理，以实现全面理解和互动。
🧠 参数数量过多： 和 720亿个参数它能够针对各种任务提供详细而细致的回答。
📊 性能基准测试： 取得了令人瞩目的成就在多模态大规模多任务理解（MMMU）基准测试中获得 70.3% 的分数在多学科领域展现出强大的实力。
🔄 动态输入处理： 支持多种输入方式，包括单张图片、文本提示和带有视觉组件的数学问题，从而实现多样化的应用。
📈 增强视觉理解力： 擅长解读复杂的视觉数据，例如图表、示意图和方程式，使其成为教育和科学领域的理想选择。

💡 预期使用场景

QVQ-72B-预览专为……而设计 开发人员和研究人员 旨在将尖端人工智能技术融入到他们的项目中。潜在应用包括：

📚 教育工具： 创建充满活力的学习环境和智能导师。
🗣️互动式学习： 打造下一代互动体验。
❓ 可视化问答系统： 开发能够根据视觉输入回答问题的复杂系统。
✍️ 自动化内容生成： 利用视觉智能人工智能增强内容创作。

🌍 语言支持

这 QVQ-72B-预览 该模型为以下方面提供了强大的支持：多语言，包括 英文和中文显著扩大了其在不同语言和全球背景下的适用性。

⚙️ 技术细节

建筑学：

QVQ-72B-预览 采用高度优化的基于Transformer的架构专为高效处理复杂的多模态输入而设计。这种设计能够无缝集成和分析视觉数据和文本数据。

训练数据：

该模型经过严格训练，训练数据为： 综合数据集 涵盖多种文本和图像格式，确保在各种实际场景中都能提供强大的性能。

数据来源及规模： 训练数据集涵盖了广泛的主题和类型，经过精心挑选，以确保生成的响应具有多样性。
多元化与偏见缓解： 数据整理的重点在于最大限度地减少偏见，同时最大限度地提高主题和风格的多样性，从而显著增强了模型的通用性和伦理合理性。

📈 性能指标与对比

为了清晰地理解 QVQ-72B-预览版 为了充分发挥其性能，我们对其各项功能进行了严格的基准测试。下方图表直观地展示了该机型与其他机型的对比情况。

QVQ-72B-预览版性能基准测试 — *QVQ-72B-Preview 与领先的多模态模型的性能进行直观比较。*

此图说明 QVQ-72B-预览版 竞争优势，尤其突出了其在复杂多模态理解任务方面的优势。

💻 如何使用 QVQ-72B-Preview

代码示例：

整合 QVQ-72B-预览 将模型集成到您的应用程序中非常简单。该模型可在以下位置访问： AI/ML API平台在标识符“QVQ-72B-预览“。”

API文档：

有关集成、端点和可用参数的完整详细信息，请参阅 详细 API 文档：
点击此处访问 API 文档。

🛡️ 伦理准则与负责任的人工智能

这 Qwen 团队 我们高度重视人工智能开发中的伦理考量。我们倡导…… 透明度关于 QVQ-72B-预览版 功能和固有局限性。

重要的： 我们强烈鼓励负责任地使用防止生成的内容被滥用或部署到有害应用程序中。

📄 许可信息

QVQ-72B-预览 是根据以下条款提供的：开源许可该许可授予两者 研究和商业使用权同时确保严格遵守道德标准和创作者权利。

准备集成 QVQ-72B-预览 融入到你的项目中吗？

🔗 点击此处获取 QVQ-72B-Preview API

❓ 常见问题解答 (FAQ)

Q1：QVQ-72B-Preview是什么？

一个： QVQ-72B-Preview 是由 Qwen 团队开发的实验性多模态语言模型。它旨在通过处理文本和图像输入来增强视觉推理能力，从而生成全面的响应，尤其擅长处理需要视觉理解的问题。

Q2：该模型的主要功能是什么？

一个： 它的主要特点包括多模态推理（文本+图像）、高参数数量（720亿）以实现细致入微的响应、在MMMU基准测试中表现出色（70.3%）、对各种数据类型的动态输入处理以及对图表、示意图和方程式的增强视觉理解。

Q3：开发者如何访问 QVQ-72B-Preview？

一个： 开发者可以通过以下方式访问该模型： AI/ML API平台，产品名称为“QVQ-72B-Preview”。我们提供了详细的 API 文档和代码示例，以方便集成。

Q4：它支持哪些语言？

一个： 该模型支持多种语言，包括英文和中文使其用途广泛，适用于全球应用。

Q5：QVQ-72B-Preview 是开源软件吗？

一个： 是的，QVQ-72B-Preview 是根据以下协议发布的：开源许可允许在遵守道德标准和尊重创作者权利的前提下进行研究和商业用途。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用