



const main = async () => {
const result = await fetch('https://api.ai.cc/v1/chat/completions', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'llava-hf/llava-v1.6-mistral-7b-hf',
max_tokens: 1024,
messages: [
{
role: 'user',
content: [
{
type: 'text',
text: 'What’s in this image?',
},
{
role: 'user',
type: 'image_url',
image_url: {
url: 'https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg',
},
},
],
},
],
}),
}).then((res) => res.json());
const message = result.choices[0].message.content;
console.log(\`Assistant: \${message}\`);
};
main();
import os
from together import Together
client = Together(base_url="https://api.ai.cc/v1", api_key="")
def main():
response = client.chat.completions.create(
model="llava-hf/llava-v1.6-mistral-7b-hf",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "What sort of animal is in this picture? What is its usual diet? What area is the animal native to? And isn’t there some AI model that’s related to the image?",
},
{
"type": "image_url",
"image_url": {
"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/LLama.jpg/444px-LLama.jpg?20050123205659",
},
},
],
}
],
max_tokens=1024,
)
print("Assistant: ", response.choices[0].message.content)
if __name__ == '__main__':
main()

Detalles del producto
✨ LLaVA v1.6 - Mistral 7B: un avance de IA multimodal
Descubrir LLaVA v1.6 - Mistral 7BSe trata de un modelo de lenguaje multimodal avanzado de código abierto que integra a la perfección la comprensión de texto e imágenes. Desarrollado por Haotian Liu y lanzado en diciembre de 2023, este modelo de la versión 1.6 está diseñado para redefinir la interacción entre humanos e IA en diversas aplicaciones.
- Nombre del modelo: LLaVA v1.6 - Mistral 7B
- Revelador: Haotian Liu
- Fecha de lanzamiento: Diciembre de 2023
- Versión: 1.6
- Tipo de modelo: Modelo de lenguaje multimodal (texto e imagen)
💡 Características y capacidades clave
LLaVA v1.6 - Mistral 7B destaca por su diseño robusto y sus mejoras centradas en el usuario:
- ✅ Modelo de Fundación: Impulsado por el altamente capaz Mistral-7B-Instrucciones-v0.2 modelo base.
- ✅ Entrada de imagen dinámica: Admite entradas de imagen de alta resolución y se adapta dinámicamente para ofrecer un contexto visual superior.
- ✅ Dominio de tareas multimodales: Maneja con destreza una amplia gama de tareas que combinan texto e imagen.
- ✅ Licencias mejoradas y soporte bilingüe: Ofrece mejores condiciones de licencia comercial y mayores capacidades bilingües.
- ✅ Diseño eficiente: Cuenta con 7 mil millones de parámetros, equilibrando el rendimiento con la eficiencia computacional.
🚀 Aplicaciones previstas
Este versátil modelo está diseñado para una variedad de aplicaciones innovadoras:
- 📚 Investigación y desarrollo en modelos multimodales a gran escala y chatbots.
- 🖼️ Generación avanzada de subtítulos para imágenes y respuesta visual a preguntas (VQA).
- 💬 Diálogos abiertos y participativos enriquecidos con contexto visual.
- 🤖 Creación de asistentes virtuales inteligentes e IA conversacional.
- 🔍 Sistemas de búsqueda y recuperación basados en imágenes.
- 🎓 Herramientas educativas interactivas que utilizan el aprendizaje visual.
El modelo ofrece sólidas capacidades multilingües, notablemente mejorada la compatibilidad bilingüe en comparación con sus predecesores.
⚙️ Especificaciones técnicas
Descripción general de la arquitectura
LLaVA v1.6 - Mistral 7B está construido sobre una arquitectura sofisticada:
- 🧠 Un modelo de lenguaje autorregresivo que aprovecha la sólida arquitectura Transformer.
- 👁️ Un potente codificador de visión preentrenado (probablemente CLIP-L, en consonancia con modelos similares).
- 🔗 Integración perfecta de entradas de texto e imagen mediante el
token dentro de las indicaciones.
Análisis de datos de capacitación
Las amplias capacidades del modelo provienen del entrenamiento en un conjunto de datos diverso y completo, que totaliza más de 1,3 millones de muestras únicas:
- 📊 558.000 pares de imagen y texto filtrados de LAION/CC/SBU, con subtítulos elaborados por expertos de BLIP.
- 🗣️ 158.000 datos multimodales de seguimiento de instrucciones generados por GPT.
- 📚 Mezcla de 500.000 datos VQA orientados a tareas académicas.
- 🧠 Mezcla de datos GPT-4V de 50K.
- 💬 40.000 datos de ShareGPT.
Punto de corte de conocimiento: Diciembre de 2023.
Diversidad y prejuicios: La amplia variedad de fuentes de datos de entrenamiento contribuye significativamente a reducir los posibles sesgos, mejorando la imparcialidad y la aplicabilidad del modelo.
Indicadores de rendimiento
LLaVA v1.6 - Mistral 7B demuestra un rendimiento sólido de forma constante en pruebas de referencia críticas:

Análisis comparativo
El modelo presenta un rendimiento altamente competitivo en comparación con otros modelos líderes:
- 📈 Exactitud: Logra puntuaciones impresionantes, incluyendo: 35.3 en MMMU y 37.7 es MathVista puntos de referencia.
- ⚡ Velocidad: Aunque no se detallan las métricas específicas de velocidad de inferencia, su tamaño de 7 mil millones de parámetros sugiere una computación eficiente y con buena capacidad de respuesta.
- 🛡️ Robustez: Su sólido desempeño constante en diversos parámetros de referencia y tareas subraya su excelente capacidad de generalización.
📚 Uso y consideraciones éticas
Ejemplos de código
Los desarrolladores pueden integrar LLaVA v1.6 - Mistral 7B mediante llamadas API estándar. Aquí hay un ejemplo conceptual para completar conversaciones con visión:
// Ejemplo de llamada a la API para LLaVA v1.6 - Mistral 7B
obtener ( 'https://api.together.xyz/v1/chat/completions' , {
método : 'POST' ,
encabezados : {
'Content-Type' : 'application/json' ,
'Autorización' : 'Bearer YOUR_API_KEY' ,
},
cuerpo : JSON.stringify ({
modelo : 'llava-hf/llava-v1.6-mistral-7b-hf' ,
mensajes : [
{ rol : 'sistema' , contenido : 'Eres un asistente útil.' },
{ rol : 'usuario' , contenido : [
{ tipo : 'texto' , texto : '¿Qué hay en esta imagen?' },
{ tipo : 'image_url' , image_url : { url : 'data:image/jpeg;base64,...' }}
]}
]
})
})
. luego (respuesta => respuesta.json ())
. luego (datos => console . log (datos)); Directrices éticas
Si bien no se proporcionan explícitamente pautas detalladas específicas en la descripción del modelo, se recomienda encarecidamente a los usuarios que se adhieran a prácticas de IA responsablesEs crucial considerar los posibles sesgos en los resultados del modelo y asegurar que el modelo sea Nunca se ha utilizado para generar contenido dañino, engañoso o ilícito..
Información sobre licencias
LLaVA v1.6 - Mistral 7B funciona bajo los términos de licencia de su modelo base, el Mistral-7B-Instrucciones-v0.2Los usuarios deben consultar la documentación oficial de la licencia para conocer los derechos de uso específicos, las restricciones y los requisitos de cumplimiento.
❓ Preguntas frecuentes (FAQ)
P1: ¿Qué es LLaVA v1.6 - Mistral 7B?
A1: LLaVA v1.6 - Mistral 7B es un modelo de lenguaje multimodal de código abierto capaz de comprender y generar texto a partir de entradas textuales y visuales. Combina un modelo de lenguaje extenso con un codificador de visión preentrenado.
P2: ¿Cuáles son las principales aplicaciones de este modelo?
A2: Es ideal para la investigación en IA multimodal, generación de subtítulos para imágenes, respuesta a preguntas visuales, diálogo abierto con contexto visual, creación de asistentes virtuales y aplicaciones de búsqueda basadas en imágenes.
P3: ¿LLaVA v1.6 - Mistral 7B admite varios idiomas?
A3: Sí, el modelo demuestra sólidas capacidades multilingües, con mejoras significativas en el soporte bilingüe en comparación con versiones anteriores.
P4: ¿Cuál es la fecha límite de conocimiento para los datos de entrenamiento del modelo?
A4: La fecha límite de conocimiento para los datos de entrenamiento de LLaVA v1.6 - Mistral 7B es diciembre de 2023.
P5: ¿Cómo se compara su rendimiento con el de otros modelos?
A5: LLaVA v1.6 - Mistral 7B muestra un rendimiento competitivo, logrando puntuaciones como 35,3 en MMMU y 37,7 en los benchmarks de MathVista, lo que indica una gran precisión y capacidad de generalización.
Campo de juegos de IA



Acceso