



const main = async () => {
const result = await fetch('https://api.ai.cc/v1/chat/completions', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'llava-hf/llava-v1.6-mistral-7b-hf',
max_tokens: 1024,
messages: [
{
role: 'user',
content: [
{
type: 'text',
text: 'What’s in this image?',
},
{
role: 'user',
type: 'image_url',
image_url: {
url: 'https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg',
},
},
],
},
],
}),
}).then((res) => res.json());
const message = result.choices[0].message.content;
console.log(\`Assistant: \${message}\`);
};
main();
import os
from together import Together
client = Together(base_url="https://api.ai.cc/v1", api_key="")
def main():
response = client.chat.completions.create(
model="llava-hf/llava-v1.6-mistral-7b-hf",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "What sort of animal is in this picture? What is its usual diet? What area is the animal native to? And isn’t there some AI model that’s related to the image?",
},
{
"type": "image_url",
"image_url": {
"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/LLama.jpg/444px-LLama.jpg?20050123205659",
},
},
],
}
],
max_tokens=1024,
)
print("Assistant: ", response.choices[0].message.content)
if __name__ == '__main__':
main()

Détails du produit
✨ LLaVA v1.6 - Mistral 7B : une avancée IA multimodale
Découvrir LLaVA v1.6 - Mistral 7Best un modèle de langage multimodal open source avancé qui intègre de manière transparente la compréhension du texte et des images. Développé par Haotian Liu et publié en décembre 2023, ce modèle (version 1.6) vise à redéfinir l'interaction homme-IA dans diverses applications.
- Nom du modèle : LLaVA v1.6 - Mistral 7B
- Promoteur: Haotian Liu
- Date de sortie : Décembre 2023
- Version: 1.6
- Type de modèle : Modèle de langage multimodal (texte et image)
💡 Principales caractéristiques et fonctionnalités
LLaVA v1.6 - Mistral 7B se distingue par sa conception robuste et ses améliorations axées sur l'utilisateur :
- ✅ Modèle de base : Alimenté par le système hautement performant Instructions Mistral-7B-v0.2 modèle de base.
- ✅ Entrée d'image dynamique : Prend en charge les entrées d'images haute résolution, s'adaptant dynamiquement pour un contexte visuel supérieur.
- ✅ Maîtrise des tâches multimodales : Maîtrise parfaitement un large éventail de tâches combinant texte et image.
- ✅ Licences améliorées et assistance bilingue : Offre des conditions de licence commerciale améliorées et des capacités bilingues renforcées.
- ✅ Conception efficace : Il dispose de 7 milliards de paramètres, alliant performance et efficacité de calcul.
🚀 Applications prévues
Ce modèle polyvalent est conçu pour une variété d'applications innovantes :
- 📚 Recherche et développement de grands modèles multimodaux et de chatbots.
- 🖼️ Légende d'image avancée et réponse aux questions visuelles (VQA).
- 💬 Des dialogues ouverts et stimulants, enrichis d'un contexte visuel.
- 🤖 Création d'assistants virtuels intelligents et d'IA conversationnelle.
- 🔍 Systèmes de recherche et de récupération d'images.
- 🎓 Outils pédagogiques interactifs utilisant l'apprentissage visuel.
Le modèle offre solides compétences multilingues, notamment en matière de prise en charge bilingue par rapport à ses prédécesseurs.
⚙️ Spécifications techniques
Aperçu de l'architecture
LLaVA v1.6 - Mistral 7B est construit sur une architecture sophistiquée :
- 🧠 Un modèle de langage autorégressif, tirant parti de l'architecture robuste des transformateurs.
- 👁️ Un puissant encodeur de vision pré-entraîné (probablement CLIP-L, conformément à des modèles similaires).
- 🔗 Intégration transparente des entrées de texte et d'image grâce à
jeton dans les invites.
Analyse des données de formation
Les capacités étendues du modèle proviennent de son entraînement sur un ensemble de données diversifié et complet, totalisant plus de 1,3 million d'échantillons uniques:
- 📊 558K paires image-texte filtrées de LAION/CC/SBU, légendées avec expertise par BLIP.
- 🗣️ 158K données multimodales de suivi d'instructions générées par GPT.
- 📚 Mélange de données VQA orientées vers des tâches académiques de 500 000.
- 🧠 Mélange de données GPT-4V de 50K.
- 💬 40K données ShareGPT.
Seuil de connaissances : Décembre 2023.
Diversité et préjugés : La grande variété des sources de données d'entraînement contribue significativement à réduire les biais potentiels, améliorant ainsi l'équité et l'applicabilité du modèle.
Indicateurs de performance
LLaVA v1.6 - Mistral 7B démontre constamment de solides performances sur l'ensemble des benchmarks critiques :

Analyse comparative
Ce modèle affiche des performances très compétitives par rapport aux autres modèles leaders :
- 📈 Précision: Obtient des scores impressionnants, notamment 35,3 sur MMMU et 37,7 est MathVista points de repère.
- ⚡ Vitesse: Bien que les métriques spécifiques de vitesse d'inférence ne soient pas détaillées, sa taille de 7 milliards de paramètres suggère un calcul efficace et réactif.
- 🛡️ Robustesse : Des performances constamment solides sur divers tests et tâches soulignent ses excellentes capacités de généralisation.
📚 Considérations relatives à l'utilisation et à l'éthique
Exemples de code
Les développeurs peuvent intégrer LLaVA v1.6 - Mistral 7B via des appels d'API standard. Voici un exemple conceptuel de complétion de chat avec vision :
// Exemple d'appel API pour LLaVA v1.6 - Mistral 7B
récupérer ( 'https://api.together.xyz/v1/chat/completions' , {
méthode : 'POST' ,
en-têtes : {
'Content-Type' : 'application/json' ,
'Autorisation' : 'Porteur VOTRE_CLÉ_API' ,
},
corps : JSON.stringify ({
modèle : 'llava-hf/llava-v1.6-mistral-7b-hf' ,
messages : [
{ rôle : 'système' , contenu : 'Vous êtes un assistant utile.' },
{ rôle : 'utilisateur' , contenu : [
{ type : 'text' , text : 'Que représente cette image ?' },
{ type : 'image_url' , image_url : { url : 'data:image/jpeg;base64,...' }}
]}
]
})
})
. puis (réponse => réponse.json ())
. alors (données => console . log (données)); Lignes directrices éthiques
Bien que des directives détaillées spécifiques ne soient pas explicitement fournies dans la description du modèle, les utilisateurs sont fortement encouragés à s'y conformer. pratiques d'IA responsablesIl est crucial de prendre en compte les biais potentiels dans les résultats du modèle et de s'assurer que le modèle est jamais utilisé pour générer du contenu nuisible, trompeur ou illicite.
Informations sur les licences
LLaVA v1.6 - Mistral 7B fonctionne selon les termes de la licence de son modèle de base, le Instructions Mistral-7B-v0.2Les utilisateurs doivent consulter la documentation officielle relative aux licences pour connaître les droits d'utilisation, les restrictions et les exigences de conformité spécifiques.
❓ Foire aux questions (FAQ)
Q1 : Qu'est-ce que LLaVA v1.6 - Mistral 7B ?
A1 : LLaVA v1.6 - Mistral 7B est un modèle de langage multimodal open source capable de comprendre et de générer du texte à partir d'entrées textuelles et visuelles. Il combine un modèle de langage étendu avec un encodeur visuel pré-entraîné.
Q2 : Quelles sont les principales applications de ce modèle ?
A2 : Il est idéal pour la recherche sur l'IA multimodale, la légende d'images, la réponse visuelle aux questions, le dialogue ouvert avec contexte visuel, la construction d'assistants virtuels et les applications de recherche basées sur l'image.
Q3 : LLaVA v1.6 - Mistral 7B prend-il en charge plusieurs langues ?
A3 : Oui, le modèle démontre de solides capacités multilingues, avec des améliorations significatives en matière de prise en charge bilingue par rapport aux versions précédentes.
Q4 : Quelle est la date limite de connaissance pour les données d'entraînement du modèle ?
A4 : La date limite de connaissances pour les données d'entraînement de LLaVA v1.6 - Mistral 7B est décembre 2023.
Q5 : Comment ses performances se comparent-elles à celles des autres modèles ?
A5 : LLaVA v1.6 - Mistral 7B affiche des performances compétitives, atteignant des scores tels que 35,3 sur MMMU et 37,7 sur les benchmarks MathVista, indiquant une forte précision et des capacités de généralisation.
Terrain de jeu de l'IA



Se connecter