qwen-bg
max-ico04
32 mil
En
Afuera
max-ico02
Charlar
max-ico03
desactivar
DiscoLM Mixtral 8x7b (46.7B)
API DiscoLM Mixtral 8x7b: un potente modelo de generación de texto con 46,7 mil millones de parámetros, optimizado para la eficiencia y el rendimiento.
Tokens gratis de $1 para nuevos miembros
Text to Speech
                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'DiscoResearch/DiscoLM-mixtral-8x7b-v2',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();
                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="DiscoResearch/DiscoLM-mixtral-8x7b-v2",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")
Docs

Una API con más de 300 modelos de IA

Ahorre un 20% en costos y $1 en tokens gratis
qwenmax-bg
imagen
DiscoLM Mixtral 8x7b (46.7B)

Detalle del producto

💡 Comprensión de DiscoLM Mixtral 8x7b

DiscoLM Mixtral 8x7b, desarrollado por DiscoInvestigación y dirigido por Björn Plüster, es un modelo de lenguaje de vanguardia publicado el 11 de diciembre de 2023. Como un V2 iteración, este modelo de generación de texto emplea una arquitectura de mezcla dispersa de expertos (MoE) altamente eficiente, lo que lo hace ideal para un amplio espectro de tareas avanzadas de procesamiento del lenguaje natural (PLN).

✨ Características principales de un vistazo

  • Arquitectura de mezcla dispersa de expertos (MoE): Aprovecha 8 grupos de expertos, con un total de 46,7 mil millones de parámetros, pero optimiza la eficiencia con solo 12,9 mil millones de parámetros utilizados por token durante la inferencia.
  • Rendimiento alto: Logra constantemente puntos de referencia de primer nivel en diversas tareas de PNL, lo que garantiza resultados superiores.
  • Competencia en varios idiomas: Funciona sin problemas en inglés, francés, español, italiano y alemán.
  • Longitud del contexto extendido: Admite una impresionante ventana de contexto de hasta 32.768 tokens, lo que permite una comprensión y generación más profundas.

💬 Aplicaciones previstas

DiscoLM Mixtral 8x7b está diseñado para brindar versatilidad y se destaca en aplicaciones como:

  • Generación y finalización de texto
  • Desarrollo de IA conversacional
  • Creación de contenido eficiente
  • Traducción de idiomas de alta calidad
  • Iniciativas de investigación avanzada en PNL

🔧 Especificaciones técnicas

Desglose de la arquitectura

La fortaleza principal del modelo reside en su Arquitectura de mezcla dispersa de expertos (MoE)Este diseño inteligente permite que el modelo active solo un subconjunto específico de sus amplios parámetros para cada token, logrando un equilibrio óptimo entre eficiencia computacional y máximo rendimiento. Se basa en el robusto framework Mixtral, optimizado para el modelado de lenguaje causal.

Datos de formación y diversidad

DiscoLM Mixtral 8x7b se sometió a un ajuste fino en una colección rica y diversa de conjuntos de datos, que incluyen:

  • Sintia: Un conjunto de datos sintéticos creado para tareas generales de PNL.
  • MetaMatemáticas QA: Diseñado específicamente para la resolución de problemas matemáticos.
  • Carpincho: Un recurso integral para el desarrollo de IA conversacional.

Si bien el tamaño exacto se mantiene en secreto, los datos de entrenamiento provienen de una amplia gama de fuentes, lo que refuerza la capacidad de generalización del modelo. El conocimiento del modelo está actualizado a partir de Diciembre de 2023Se realizaron grandes esfuerzos para incorporar diversos conjuntos de datos para mitigar los sesgos; sin embargo, aún pueden estar presentes sesgos inherentes comunes a los modelos de lenguaje grandes.

📈 Rendimiento y puntos de referencia

Métricas clave de rendimiento

  • ARC (25 disparos): 67.32
  • HellaSwag (10 disparos): 86.25
  • MMLU (5 disparos): 70.72
  • TruthfulQA (0 disparos): 54.17
  • Winogrande (5 tiros): 80.72
  • GSM8k (5 disparos): 25.09

Ventaja competitiva

DiscoLM Mixtral 8x7b consistentemente supera a muchos modelos contemporáneos, incluyendo LLama 2 70B de Meta, en diversas pruebas de referencia, lo que destaca sus capacidades superiores. Su arquitectura MoE también garantiza una velocidad de inferencia eficiente y una robustez sólida en diversas entradas, temas e idiomas.

📜 Uso y licencias

Ejemplos de código

Directrices éticas

Se recomienda a los usuarios que implementen DiscoLM Mixtral 8x7b de forma responsable, teniendo en cuenta los posibles sesgos y las implicaciones éticas. Este modelo está diseñado principalmente para fines de investigación y no debe utilizarse estrictamente para ninguna actividad dañina.

Información de licencia

DiscoLM Mixtral 8x7b se lanza bajo la Licencia Apache 2.0, que permite su utilización tanto con fines comerciales como no comerciales.

ⓘ Preguntas frecuentes (FAQ)

P: ¿Qué es DiscoLM Mixtral 8x7b?
A: DiscoLM Mixtral 8x7b es un modelo de lenguaje de generación de texto de última generación de DiscoResearch, que utiliza una arquitectura de mezcla dispersa de expertos (MoE) para lograr un alto rendimiento y eficiencia en diversas tareas de PNL.
P: ¿Qué idiomas admite DiscoLM Mixtral 8x7b?
R: Es competente en varios idiomas, incluidos inglés, francés, español, italiano y alemán.
P: ¿Cómo beneficia su arquitectura MoE a los usuarios?
R: La arquitectura de mezcla dispersa de expertos permite que el modelo active solo un subconjunto de sus parámetros totales por token, lo que genera una eficiencia computacional optimizada sin comprometer el alto rendimiento.
P: ¿Cuál es la longitud del contexto de este modelo?
A: DiscoLM Mixtral 8x7b admite una longitud de contexto extendida de hasta 32,768 tokens.
P: ¿Bajo qué licencia se lanzó DiscoLM Mixtral 8x7b?
R: El modelo se publica bajo la licencia Apache 2.0, lo que permite su uso tanto comercial como no comercial.

Patio de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Una API
Más de 300 modelos de IA

Ahorre un 20% en costos