



const main = async () => {
const result = await fetch('https://api.ai.cc/v1/chat/completions', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo',
max_tokens: 1024,
messages: [
{
role: 'user',
content: [
{
type: 'text',
text: 'What’s in this image?',
},
{
role: 'user',
type: 'image_url',
image_url: {
url: 'https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg',
},
},
],
},
],
}),
}).then((res) => res.json());
const message = result.choices[0].message.content;
console.log(\`Assistant: \${message}\`);
};
main();
import os
from together import Together
client = Together(base_url="https://api.ai.cc/v1", api_key="")
def main():
response = client.chat.completions.create(
model="meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "What sort of animal is in this picture? What is its usual diet? What area is the animal native to? And isn’t there some AI model that’s related to the image?",
},
{
"type": "image_url",
"image_url": {
"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/LLama.jpg/444px-LLama.jpg?20050123205659",
},
},
],
}
],
max_tokens=1024,
)
print("Assistant: ", response.choices[0].message.content)
if __name__ == '__main__':
main()

Detalles del producto
✨ Presentamos Llama 3.2 90B Vision Instruct Turbo
Descubrir El innovador modelo de IA multimodal de Meta, el Llama 3.2 90B Vision Instruct TurboLanzado el 25 de septiembre de 2024Este modelo avanzado (versión 3.2) representa la importante incursión de Meta en la integración del razonamiento visual sofisticado con el procesamiento del lenguaje potente.
Especificaciones clave del modelo
- ✓ Nombre del modelo: Llama 3.2 90B Vision Instruct Turbo
- ✓ Desarrollador/Creador: Meta
- ✓ Fecha de lanzamiento: 25 de septiembre de 2024
- ✓ Versión: 3.2
- ✓ Tipo de modelo: Multimodal (texto e imagen)
🚀 Resumen: Impulsando la IA multimodal
El Llama 3.2 90B Vision Instruct Turbo se erige como un modelo de IA multimodal a gran escala, diseñado por expertos para procesar ambos Texto e imágenes sin problemasEste modelo representa La primera incursión dedicada de Meta Integrada en la IA multimodal, ofrece un razonamiento visual sofisticado junto con sólidas capacidades de comprensión del lenguaje. Está diseñada para brindar una experiencia de IA más integral e intuitiva.
💡 Funcionalidades principales y capacidades avanzadas
- ► Procesamiento multimodal: Manejo avanzado de texto e imágenes.
- ► 90 mil millones de parámetros: Una vasta red neuronal que garantiza una comprensión profunda.
- ► Longitud del contexto largo: Admite hasta 128.000 tokens para interacciones complejas y prolongadas.
- ► Arquitectura de transformador optimizada: Construido sobre una estructura de transformador moderna y de alta eficiencia.
- ► Técnicas de entrenamiento avanzadas: Utiliza el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo con retroalimentación humana (RLHF).
- ► Procesamiento de imágenes de alta resolución: Capaz de analizar imágenes de hasta 1120x1120 píxeles para detalles meticulosos.
🎯 Casos de uso y aplicaciones previstas
El Llama 3.2 90B Vision Instruct Turbo está diseñado para una amplia gama de aplicaciones, lo que lo convierte en un activo invaluable en múltiples sectores:
- • Comprensión a nivel de documento: Análisis exhaustivo y extracción de información de documentos complejos.
- • Interpretación de gráficos y diagramas: Obtener información precisa a partir de datos visuales.
- • Leyenda de la imagen: Generar descripciones precisas y ricas en contexto para las imágenes.
- • Sistema de respuesta a preguntas visuales (VQA): Responder a consultas basándose en contenido visual.
- • Extracción y procesamiento de datos: Extracción eficiente de datos relevantes a partir de entradas multimodales.
- • Comparación de imágenes: Identificación de diferencias y similitudes en datos visuales.
- • Asistencia visual personalizada: Proporcionar asistencia inteligente para tareas visuales.
🌐 Soporte multilingüe: Este modelo admite varios idiomas, lo que la hace excepcionalmente versátil para aplicaciones globales y diversos requisitos lingüísticos.
⚙️ Arquitectura técnica y formación
Arquitectura del modelo
El Llama 3.2 90B Vision Instruct Turbo emplea un arquitectura de transformador optimizadaPara el procesamiento de imágenes, utiliza sensores específicamente entrenados. pesos del adaptador de razonamiento de imágenes, que se integran perfectamente con los pesos del modelo de lenguaje grande (LLM) central a través de un mecanismo de atención cruzadaEsto permite una comprensión coherente tanto de la información visual como de la textual.
Base de datos y conocimientos de formación
- • Fuente y tamaño de los datos: Entrenado en un extenso conjunto de datos que comprende 6 mil millones de pares (imagen, texto).
- • Punto de corte de conocimiento: La base de conocimientos del modelo está actualizada hasta Diciembre de 2023.
📊 Métricas y puntos de referencia de rendimiento
El Llama 3.2 90B Vision Instruct Turbo demuestra desempeño excepcional en diversos parámetros críticos de comprensión multimodal, demostrando su ventaja competitiva:
- ⭐ Comprensión de gráficos (ChartQA): Coincide con el GPT-40 de OpenAI. en precisión.
- ⭐ Interpretación de diagramas científicos (AI2D): Supera en rendimiento al Claude 3 Opus de Anthropic y al Gemini 1.5 Pro de Google..
Comparación con otros modelos: Este modelo es un competidor formidable frente a modelos de IA líderes como Claude 3 Haiku y GPT-4o-mini, destacando especialmente por sus capacidades de reconocimiento de imágenes y comprensión visual integral.
📝 Guía de uso y licencias
Ejemplos de código para la integración
Los desarrolladores pueden integrar Llama 3.2 90B Vision Instruct Turbo en sus aplicaciones mediante llamadas API estándar. Para obtener instrucciones de implementación detalladas y ejemplos de código, consulte la documentación oficial de la API proporcionada por las plataformas que alojan este modelo (por ejemplo, Together.ai para tareas de visión artificial de finalización de chat).
🛡️ Directrices éticas y seguridad
Para garantizar un despliegue responsable y ético, el modelo está equipado con un nuevo Modelo de seguridad Llama GuardEsta función es crucial para mitigar posibles sesgos y promover el uso justo y seguro de sus funcionalidades avanzadas de IA.
📜 Licencias y restricciones de uso comercial en la UE
Los modelos Llama 3.2, incluidas todas las capacidades multimodales asociadas, se rigen por un acuerdo de licencia específico. Una cláusula importante dentro de este acuerdo es la Restricción al uso comercial dentro de EuropaSegún el Política de uso aceptable de Llama 3.2, personas u organizaciones con sede en la Unión Europea son No se otorgan derechos para utilizar estos modelos con fines comerciales..
Información crítica para desarrolladores: Esta restricción es esencial para los desarrolladores y organizaciones que estén considerando la implementación de modelos Llama 3.2 en sus aplicaciones dentro de la UE. Para obtener información completa y detallada sobre el uso aceptable y los términos de licencia, consulte la Política de uso de Llama 3.2.
❓ Preguntas frecuentes (FAQ)
P1: ¿Qué es Llama 3.2 90B Vision Instruct Turbo?
A: Se trata del último modelo de IA multimodal a gran escala de Meta, lanzado el 25 de septiembre de 2024, diseñado para procesar texto e imágenes con 90 mil millones de parámetros, ofreciendo una comprensión visual y lingüística avanzada.
P2: ¿Cuáles son las principales capacidades de este modelo?
A: Sus principales capacidades incluyen el procesamiento de imágenes de alta resolución (hasta 1120x1120 píxeles), la compatibilidad con contextos de gran longitud (hasta 128k tokens) y un rendimiento sólido en tareas como la generación de subtítulos para imágenes, la respuesta a preguntas visuales y el análisis de documentos.
P3: ¿Cómo se compara Llama 3.2 90B Vision Instruct Turbo con otros modelos de IA?
A: Su capacidad para comprender gráficos es comparable a la de GPT-4o de OpenAI, y supera a la de Claude 3 Opus de Anthropic y a la de Gemini 1.5 Pro de Google en la interpretación de diagramas científicos, lo que lo sitúa entre los modelos de IA multimodales de primer nivel.
P4: ¿Existen restricciones para su uso comercial?
A: Sí, es fundamental destacar que el uso comercial de los modelos Llama 3.2 no está permitido para personas u organizaciones con sede en la Unión Europea, tal como se indica en la Política de Uso Aceptable de Llama 3.2.
P5: ¿Cuál es el umbral de conocimientos para Llama 3.2 90B Vision Instruct Turbo?
A: Los datos de entrenamiento del modelo incorporan información hasta diciembre de 2023.
Campo de juegos de IA



Acceso