qwen-bg
max-ico04
4K
出去
max-ico02
聊天
max-ico03
禁用
LLaVa v1.6 - Mistral 7b
LLaVa-NeXT - Mistral 7B:基于 Mistral-7B 构建的用于图像-文本任务的高级多模态 AI 模型,具有 70 亿个参数。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        const main = async () => {
  const result = await fetch('https://api.ai.cc/v1/chat/completions', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'llava-hf/llava-v1.6-mistral-7b-hf',
      max_tokens: 1024,
      messages: [
        {
          role: 'user',
          content: [
            {
              type: 'text',
              text: 'What’s in this image?',
            },
            {
              role: 'user',
              type: 'image_url',
              image_url: {
                url: 'https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg',
              },
            },
          ],
        },
      ],
    }),
  }).then((res) => res.json());

  const message = result.choices[0].message.content;
  console.log(\`Assistant: \${message}\`);
};

main();
                                
                                        import os
from together import Together

client = Together(base_url="https://api.ai.cc/v1", api_key="")

def main():
  response = client.chat.completions.create(
      model="llava-hf/llava-v1.6-mistral-7b-hf",
      messages=[
          {
              "role": "user",
              "content": [
                  {
                      "type": "text",
                      "text": "What sort of animal is in this picture? What is its usual diet? What area is the animal native to? And isn’t there some AI model that’s related to the image?",
                  },
                  {
                      "type": "image_url",
                      "image_url": {
                          "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/LLama.jpg/444px-LLama.jpg?20050123205659",
                      },
                  },
              ],
          }
      ],
      max_tokens=1024,
  )

  print("Assistant: ", response.choices[0].message.content)

if __name__ == '__main__':
  main()
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
qwenmax-bg
图片
LLaVa v1.6 - Mistral 7b

产品详情

✨ LLaVA v1.6 - Mistral 7B:多模式人工智能突破

发现 LLaVA v1.6 - Mistral 7B这是一个先进的开源多模态语言模型,能够无缝集成文本和图像理解。该模型由刘昊天开发,于2023年12月发布,版本1.6旨在重新定义各种应用场景下的人机交互。

  • 型号名称: LLaVA v1.6 - Mistral 7B
  • 开发者: Haotian Liu
  • 发布日期: 2023年12月
  • 版本: 1.6
  • 型号: 多模态语言模型(文本和图像)

💡 主要特性和功能

LLaVA v1.6 - Mistral 7B 以其强大的设计和以用户为中心的增强功能脱颖而出:

  • 基础模型: 由性能卓越的 Mistral-7B-Instruct-v0.2 基础型号。
  • 动态图像输入: 支持高分辨率图像输入,动态适应,提供卓越的视觉体验。
  • 多模态任务掌握: 能够熟练地处理各种结合文本和视觉的任务。
  • 增强型许可和双语支持: 提供更优的商业许可条款和更强大的双语能力。
  • 高效设计: 拥有 70 亿个参数,兼顾性能与计算效率。

🚀 预期用途

这款多功能机型专为各种创新应用而设计:

  • 📚 大型多模态模型和聊天机器人的研究与开发。
  • 🖼️ 高级图像描述和视觉问答(VQA)。
  • 💬 引人入胜的开放式对话,辅以丰富的视觉背景。
  • 🤖 构建智能虚拟助手和对话式人工智能。
  • 🔍 基于图像的搜索和检索系统。
  • 🎓 利用视觉学习的互动式教育工具。

该模型提供 强大的多语言能力与前代产品相比,双语支持得到了显著提升。

⚙️ 技术规格

架构概述

LLaVA v1.6 - Mistral 7B 构建于复杂的架构之上:

  • 🧠 一种利用强大的 Transformer 架构的自回归语言模型。
  • 👁️ 一个强大的预训练视觉编码器(很可能) CLIP-L(与类似模型一致)。
  • 🔗 使用以下方式无缝集成文本和图像输入: 提示中的令牌。

训练数据洞察

该模型强大的功能源于其基于多样化且全面的数据集进行的训练,该数据集总计超过 130万个独特样本

  • 📊 558K 个来自 LAION/CC/SBU 的过滤图像-文本对,由 BLIP 专业添加标题。
  • 🗣️ 158K GPT 生成的多模态指令跟随数据。
  • 📚 500K 学术任务导向型 VQA 数据混合。
  • 🧠 50K GPT-4V 数据混合。
  • 💬 40K ShareGPT 数据。

知识门槛: 2023年12月。

多样性与偏见: 广泛的训练数据来源有助于减少潜在的偏差,提高模型的公平性和适用性。

性能基准

LLaVA v1.6 - Mistral 7B 在各项关键基准测试中均表现出色:

LLaVA v1.6 - Mistral 7B 性能基准测试
LLaVA v1.6 - Mistral 7B 的性能基准示例。

比较分析

与其他领先型号相比,该型号展现出极具竞争力的性能:

  • 📈 准确性: 取得了令人瞩目的成绩,包括 MMMU 上的 35.337.7 是 MathVista 基准测试。
  • 速度: 虽然没有详细说明具体的推理速度指标,但其 70 亿的参数规模表明其计算效率高且响应迅速。
  • 🛡️ 鲁棒性: 在各种基准测试和任务中始终表现出色,凸显了其优秀的泛化能力。

📚 使用及伦理考量

代码示例

开发者可以使用标准 API 调用集成 LLaVA v1.6 - Mistral 7B。以下是一个利用视觉实现聊天自动补全的概念示例:

// LLaVA v1.6 - Mistral 7B 的示例 API 调用
fetch ( 'https://api.together.xyz/v1/chat/completions' , {
方法'POST'
标题:{
'Content-Type' : 'application/json' ,
'授权' : '持有者 YOUR_API_KEY' ,
},
body : JSON.stringify ({
型号'llava-hf/llava-v1.6-mistral-7b-hf'
消息:[
{ role : 'system' , content : '你是一位乐于助人的助手。' },
{ role : 'user' , content : [
{ type : 'text' , text : '这张图片里是什么?' },
{ type : 'image_url' , image_url : { url : 'data:image/jpeg;base64,...' }}
]}
]
})
})
然后(response => response.json ())
然后(data => console.log data));

伦理准则

虽然模型描述中没有明确提供具体的详细指南,但强烈建议用户遵守以下规定: 负责任的人工智能实践考虑模型输出中潜在的偏差至关重要,并确保模型能够…… 绝不用于生成有害、误导性或非法内容

许可信息

LLaVA v1.6 - Mistral 7B 在其基础模型的许可条款下运行, Mistral-7B-Instruct-v0.2用户必须查阅官方许可文档,以了解具体的使用权、限制和合规要求。

❓ 常见问题解答 (FAQ)


Q1:LLaVA v1.6 - Mistral 7B 是什么?

A1:LLaVA v1.6 - Mistral 7B 是一个开源的多模态语言模型,能够根据文本和视觉输入理解和生成文本。它结合了一个大型语言模型和一个预训练的视觉编码器。

Q2:该模型的主要应用有哪些?

A2:它非常适合用于多模态人工智能、图像描述、视觉问答、与视觉上下文的开放式对话、构建虚拟助手和基于图像的搜索应用程序的研究。

Q3:LLaVA v1.6 - Mistral 7B 是否支持多种语言?

A3:是的,该模型展现了强大的多语言能力,与早期版本相比,双语支持方面有了显著改进。

Q4:该模型训练数据的知识截止日期是什么?

A4:LLaVA v1.6 - Mistral 7B 训练数据的知识截止时间为 2023 年 12 月。

Q5:它的性能与其他型号相比如何?

A5:LLaVA v1.6 - Mistral 7B 表现出竞争性的性能,在 MMMU 基准测试中取得了 35.3 分,在 MathVista 基准测试中取得了 37.7 分,表明其具有很强的准确性和泛化能力。

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用