qwen-bg
max-ico04
32 mil
Em
Fora
max-ico02
Bater papo
max-ico03
desativar
DiscoLM Mixtral 8x7b (46,7B)
API DiscoLM Mixtral 8x7b: Um modelo poderoso de geração de texto com 46,7 bilhões de parâmetros, otimizado para eficiência e desempenho.
Tokens de $1 grátis para novos membros
Text to Speech
                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'DiscoResearch/DiscoLM-mixtral-8x7b-v2',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();
                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="DiscoResearch/DiscoLM-mixtral-8x7b-v2",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")
Docs

Uma API com mais de 300 modelos de IA

Economize 20% nos custos e ganhe tokens grátis de $1.
qwenmax-bg
imagem
DiscoLM Mixtral 8x7b (46,7B)

Detalhes do produto

💡 Compreendendo o DiscoLM Mixtral 8x7b

DiscoLM Mixtral 8x7b, desenvolvido por Pesquisa de Discos e liderado por Björn Plüster, é um modelo de linguagem de ponta lançado em 11 de dezembro de 2023Como um V2 Em termos de iteração, este modelo de geração de texto emprega uma arquitetura de mistura esparsa de especialistas (MoE) altamente eficiente, tornando-o ideal para um amplo espectro de tarefas avançadas de Processamento de Linguagem Natural (PLN).

✨ Principais recursos em resumo

  • Arquitetura de Mistura Esparsa de Especialistas (MoE): Utiliza 8 grupos de especialistas, apresentando um total substancial de 46,7 bilhões de parâmetros, otimizando a eficiência com apenas 12,9 bilhões de parâmetros utilizados por token durante a inferência.
  • Alto desempenho: Atinge consistentemente os mais altos padrões de qualidade em diversas tarefas de PNL, garantindo resultados superiores.
  • Proficiência em vários idiomas: Funciona perfeitamente em inglês, francês, espanhol, italiano e alemão.
  • Comprimento do contexto estendido: Suporta uma impressionante janela de contexto de até 32.768 tokens, permitindo uma compreensão e geração mais profundas.

💬 Aplicações pretendidas

O DiscoLM Mixtral 8x7b foi projetado para versatilidade e se destaca em aplicações como:

  • Geração e preenchimento de texto
  • Desenvolvimento de IA conversacional
  • Criação de conteúdo eficiente
  • Tradução de idiomas de alta qualidade
  • Iniciativas avançadas de pesquisa em PNL

🔧 Especificações Técnicas

Análise da arquitetura

A principal força do modelo reside em sua arquitetura de mistura esparsa de especialistas (MoE)Este design inteligente permite que o modelo ative apenas um subconjunto específico de seus vastos parâmetros para cada token, alcançando um equilíbrio ideal entre eficiência computacional e desempenho máximo. Ele é construído sobre a robusta estrutura Mixtral, otimizada para modelagem causal de linguagem.

Dados de treinamento e diversidade

O DiscoLM Mixtral 8x7b passou por um ajuste fino em uma coleção rica e diversificada de conjuntos de dados, incluindo:

  • Síntia: Um conjunto de dados sintéticos criado para tarefas gerais de PNL (Processamento de Linguagem Natural).
  • MethaMathQA: Concebido especificamente para a resolução de problemas matemáticos.
  • Capivara: Um recurso completo para o desenvolvimento de IA conversacional.

Embora o tamanho exato permaneça em segredo, os dados de treinamento provêm de uma ampla gama de fontes, reforçando as capacidades de generalização do modelo. O conhecimento do modelo está atualizado até [data]. Dezembro de 2023Foram feitos esforços consideráveis ​​para incorporar diversos conjuntos de dados a fim de mitigar vieses; no entanto, vieses inerentes comuns a grandes modelos de linguagem ainda podem estar presentes.

📈 Desempenho e Benchmarks

Principais métricas de desempenho

  • ARC (25 disparos): 67,32
  • HellaSwag (10 doses): 86,25
  • MMLU (5 tiros): 70,72
  • TruthfulQA (0-shot): 54,17
  • Winogrande (5 tiros): 80,72
  • GSM8k (5 disparos): 25.09

Vantagem Competitiva

DiscoLM Mixtral 8x7b consistentemente supera muitos modelos contemporâneos, incluindo o LLama 2 70B da Meta, em vários benchmarks, destacando suas capacidades superiores. Sua arquitetura MoE também garante velocidade de inferência eficiente e forte robustez em diversas entradas, tópicos e idiomas.

📜 Uso e Licenciamento

Exemplos de código

Diretrizes Éticas

Recomenda-se que os usuários implementem o DiscoLM Mixtral 8x7b de forma responsável, levando em consideração possíveis vieses e implicações éticas. Este modelo destina-se principalmente a objetivos de pesquisa e não deve ser usado, em hipótese alguma, para quaisquer atividades prejudiciais.

Informações sobre licenciamento

DiscoLM Mixtral 8x7b é lançado sob o Licença Apache 2.0, que permite a utilização tanto comercial quanto não comercial.

ⓘ Perguntas frequentes (FAQ)

P: O que é DiscoLM Mixtral 8x7b?
A: O DiscoLM Mixtral 8x7b é um modelo de linguagem de última geração para geração de texto, desenvolvido pela DiscoResearch, que utiliza uma arquitetura de mistura esparsa de especialistas (MoE) para alto desempenho e eficiência em diversas tarefas de PNL (Processamento de Linguagem Natural).
P: Quais idiomas o DiscoLM Mixtral 8x7b suporta?
A: Possui proficiência em vários idiomas, incluindo inglês, francês, espanhol, italiano e alemão.
P: Como a arquitetura MoE beneficia os usuários?
A: A arquitetura Sparse Mixture of Experts permite que o modelo ative apenas um subconjunto de seus parâmetros totais por token, resultando em eficiência computacional otimizada sem comprometer o alto desempenho.
P: Qual é o comprimento do contexto deste modelo?
A: O DiscoLM Mixtral 8x7b suporta um comprimento de contexto estendido de até 32.768 tokens.
P: Sob qual licença o DiscoLM Mixtral 8x7b foi lançado?
A: O modelo é distribuído sob a licença Apache 2.0, permitindo o uso tanto comercial quanto não comercial.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.
Experimente grátis
api-right-1
modelo-bg02-1

Uma API
Mais de 300 modelos de IA

Economize 20% nos custos