



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'qwen/qvq-72b-preview',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="qwen/qvq-72b-preview",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Detalhes do produto
✨ Prévia do QVQ-72B: Liberando a IA Multimodal Avançada
Apresentando Pré-visualização QVQ-72B, um modelo de pesquisa experimental da inovadora Equipe Qwen, lançado oficialmente em 25 de dezembro de 2024Este sistema de última geração Modelo de linguagem multimodal Foi projetado para aprimorar significativamente as capacidades de raciocínio visual, integrando perfeitamente o processamento avançado de entradas de texto e visuais. Ele se destaca na resolução de problemas complexos que exigem uma compreensão profunda do conteúdo visual.
Informações básicas:
- Nome do modelo: Pré-visualização QVQ-72B
- Desenvolvedor/Criador: Equipe Qwen
- Data de lançamento: 25 de dezembro de 2024
- Versão: 1.0
- Tipo de modelo: Modelo de linguagem multimodal
🚀 Principais recursos e funcionalidades
- ✅ Raciocínio multimodal: Processar e raciocinar com texto e imagens para uma compreensão e interação abrangentes.
- 🧠 Número elevado de parâmetros: Com 72 bilhões de parâmetrosEle fornece respostas detalhadas e precisas para diversas tarefas.
- 📊 Indicadores de desempenho: Alcançou um resultado impressionante. 70,3% no benchmark Multimodal Massive Multi-task Understanding (MMMU), demonstrando um desempenho robusto em contextos multidisciplinares.
- 🔄 Tratamento dinâmico de entradas: Suporta diversas entradas, incluindo imagens individuais, instruções de texto e problemas matemáticos com componentes visuais, possibilitando diversas aplicações.
- 📈 Compreensão visual aprimorada: Destaca-se na interpretação de dados visuais complexos, como gráficos, diagramas e equações, sendo ideal para as áreas educacional e científica.
💡 Casos de uso pretendidos
Pré-visualização QVQ-72B é especificamente projetado para desenvolvedores e pesquisadores visando integrar recursos de IA de ponta em seus projetos. As aplicações potenciais incluem:
- 📚 Ferramentas Educacionais: Crie ambientes de aprendizagem dinâmicos e tutores inteligentes.
- 🗣️ Aprendizagem interativa: Potencialize experiências interativas de última geração.
- ❓ Sistemas visuais de resposta a perguntas: Desenvolver sistemas sofisticados que respondam a perguntas com base em informações visuais.
- ✍️ Geração automatizada de conteúdo: Aprimore a criação de conteúdo com IA visualmente inteligente.
🌍 Suporte a idiomas
O Pré-visualização QVQ-72B O modelo oferece suporte robusto para vários idiomas, incluindo Inglês e chinês, ampliando significativamente sua aplicabilidade em diversos contextos linguísticos e globais.
⚙️ Detalhes técnicos
Arquitetura:
Pré-visualização QVQ-72B utiliza um sistema altamente otimizado arquitetura baseada em transformadoresProjetado especificamente para o processamento eficiente de entradas multimodais complexas, esse design permite a integração e análise perfeitas de dados visuais e textuais.
Dados de treinamento:
O modelo foi rigorosamente treinado em um conjunto de dados abrangente Abrangendo uma ampla gama de formatos de texto e imagem, garantindo um desempenho robusto em diversos cenários do mundo real.
- Fonte e tamanho dos dados: O conjunto de dados de treinamento abrange uma vasta gama de tópicos e gêneros, cuidadosamente selecionados para garantir a diversidade nas respostas geradas.
- Diversidade e Mitigação de Preconceitos: A curadoria de dados teve como foco minimizar os vieses e maximizar a diversidade temática e estilística, aprimorando significativamente a versatilidade e a solidez ética do modelo.
📈 Métricas e comparações de desempenho
Para proporcionar uma compreensão clara de Pré-visualização do QVQ-72B Para avaliar as capacidades e o desempenho do modelo, foram realizados testes comparativos rigorosos. Abaixo, você encontrará uma representação visual de sua posição em relação a outros modelos.

Este gráfico ilustra Pré-visualização do QVQ-72B vantagem competitiva, destacando particularmente sua força em tarefas complexas de compreensão multimodal.
💻 Como usar o QVQ-72B-Preview
Exemplos de código:
Integrando Pré-visualização QVQ-72B Integrar aos seus aplicativos é simples. O modelo está acessível em Plataforma de API de IA/ML sob o identificador "Pré-visualização QVQ-72B".
Documentação da API:
Para obter detalhes completos sobre integração, endpoints e parâmetros disponíveis, consulte o Documentação detalhada da API:
Acesse a documentação da API aqui..
🛡️ Diretrizes Éticas e IA Responsável
O Equipe Qwen está profundamente comprometida com as considerações éticas no desenvolvimento da IA. Defendemos transparência a respeito de Pré-visualização do QVQ-72B capacidades e limitações inerentes.
Importante: Recomendamos vivamente uso responsável para evitar qualquer possível uso indevido ou implementação do conteúdo gerado em aplicações prejudiciais.
📄 Informações sobre licenciamento
Pré-visualização QVQ-72B está disponível sob um licença de código abertoEsta licença concede ambos direitos de uso comercial e de pesquisa, garantindo ao mesmo tempo o estrito cumprimento das normas éticas e dos direitos do criador.
Pronto para integrar Pré-visualização QVQ-72B Em seus projetos?
🔗 Obtenha a API de pré-visualização do QVQ-72B aqui❓ Perguntas frequentes (FAQ)
P1: O que é o QVQ-72B-Preview?
UM: O QVQ-72B-Preview é um modelo de linguagem multimodal experimental desenvolvido pela equipe Qwen. Ele foi projetado para aprimorar o raciocínio visual, processando entradas de texto e imagem para gerar respostas abrangentes, destacando-se particularmente em problemas que exigem compreensão visual.
Q2: Quais são as principais capacidades deste modelo?
UM: Suas principais características incluem raciocínio multimodal (texto + imagens), um elevado número de parâmetros (72 bilhões) para respostas detalhadas, um desempenho sólido no benchmark MMMU (70,3%), tratamento dinâmico de entradas para diversos tipos de dados e uma compreensão visual aprimorada de gráficos, diagramas e equações.
P3: Como os desenvolvedores podem acessar o QVQ-72B-Preview?
UM: Os desenvolvedores podem acessar o modelo através do Plataforma de API de IA/ML, listado como "QVQ-72B-Preview". Documentação detalhada da API e exemplos de código estão disponíveis para facilitar a integração.
Q4: Quais idiomas ele suporta?
UM: O modelo suporta vários idiomas, incluindo Inglês e chinês, tornando-o versátil para aplicações globais.
Q5: O QVQ-72B-Preview é de código aberto?
UM: Sim, o QVQ-72B-Preview foi lançado sob um acordo. licença de código aberto, permitindo tanto o uso para fins de pesquisa quanto para fins comerciais, ao mesmo tempo que respeita os padrões éticos e os direitos do criador.
Playground de IA



Conecte-se