



const main = async () => {
const result = await fetch('https://api.ai.cc/v1/chat/completions', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo',
max_tokens: 1024,
messages: [
{
role: 'user',
content: [
{
type: 'text',
text: 'What’s in this image?',
},
{
role: 'user',
type: 'image_url',
image_url: {
url: 'https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg',
},
},
],
},
],
}),
}).then((res) => res.json());
const message = result.choices[0].message.content;
console.log(\`Assistant: \${message}\`);
};
main();
import os
from together import Together
client = Together(base_url="https://api.ai.cc/v1", api_key="")
def main():
response = client.chat.completions.create(
model="meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "What sort of animal is in this picture? What is its usual diet? What area is the animal native to? And isn’t there some AI model that’s related to the image?",
},
{
"type": "image_url",
"image_url": {
"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/LLama.jpg/444px-LLama.jpg?20050123205659",
},
},
],
}
],
max_tokens=1024,
)
print("Assistant: ", response.choices[0].message.content)
if __name__ == '__main__':
main()

Detalle del producto
✨ Presentamos Llama 3.2 90B Vision Instruct Turbo
Descubrir El innovador modelo de IA multimodal de Meta, el Llama 3.2 90B Visión Instrucción TurboLanzado el 25 de septiembre de 2024Este modelo avanzado (versión 3.2) significa la entrada significativa de Meta en la integración del razonamiento visual sofisticado con el poderoso procesamiento del lenguaje.
Especificaciones clave del modelo
- ✓ Nombre del modelo: Llama 3.2 90B Visión Instrucción Turbo
- ✓ Desarrollador/creador: Meta
- ✓ Fecha de lanzamiento: 25 de septiembre de 2024
- ✓ Versión: 3.2
- ✓ Tipo de modelo: Multimodal (Texto e Imagen)
🚀 Descripción general: Impulsando la IA multimodal
El Llama 3.2 90B Visión Instrucción Turbo se presenta como un modelo de IA multimodal a gran escala, diseñado por expertos para procesar ambos texto e imágenes sin problemasEste modelo representa La primera incursión dedicada de Meta en IA multimodal, que proporciona un razonamiento visual sofisticado junto con sus robustas capacidades de comprensión del lenguaje. Está diseñado para ofrecer una experiencia de IA más holística e intuitiva.
💡 Funciones principales y capacidades avanzadas
- ► Procesamiento multimodal: Manejo avanzado tanto de texto como de imágenes.
- ► 90 mil millones de parámetros: Una vasta red neuronal que garantiza una comprensión profunda.
- ► Contexto largo Longitud: Admite hasta 128k tokens para interacciones complejas y extendidas.
- ► Arquitectura de transformador optimizada: Construido sobre un marco de transformador moderno y altamente eficiente.
- ► Técnicas de entrenamiento avanzadas: Aprovecha el ajuste fino supervisado (SFT) y el aprendizaje de refuerzo con retroalimentación humana (RLHF).
- ► Procesamiento de imágenes de alta resolución: Capaz de analizar imágenes hasta 1120x1120 píxeles para detalles meticulosos.
🎯 Casos de uso y aplicaciones previstos
El Llama 3.2 90B Vision Instruct Turbo está diseñado para una amplia variedad de aplicaciones, lo que lo convierte en un activo invaluable en múltiples sectores:
- • Comprensión a nivel de documento: Análisis profundo y extracción de documentos complejos.
- • Interpretación de gráficos y tablas: Obtener información precisa a partir de datos visuales.
- • Título de la imagen: Generar descripciones precisas y contextualmente ricas para las imágenes.
- • Respuesta visual a preguntas (VQA): Responder consultas basadas en contenido visual.
- • Extracción y procesamiento de datos: Extracción eficiente de datos relevantes de entradas multimodales.
- • Comparación de imágenes: Identificar diferencias y similitudes en datos visuales.
- • Asistencia visual personal: Proporcionando asistencia inteligente para tareas visuales.
🌐 Soporte multilingüe: Este modelo es compatible varios idiomas, lo que lo hace excepcionalmente versátil para aplicaciones globales y diversos requisitos lingüísticos.
⚙️ Arquitectura Técnica y Formación
Arquitectura del modelo
El Llama 3.2 90B Vision Instruct Turbo emplea un arquitectura de transformador optimizadaPara el procesamiento de imágenes, utiliza un sistema específicamente entrenado. pesos del adaptador de razonamiento de imágenes, que se integran perfectamente con los pesos centrales del Modelo de Lenguaje Grande (LLM) a través de un mecanismo de atención cruzadaEsto permite una comprensión cohesiva de las entradas visuales y textuales.
Datos de capacitación y base de conocimientos
- • Fuente de datos y tamaño: Entrenado en un amplio conjunto de datos que comprende 6 mil millones de pares (imagen, texto).
- • Nivel de conocimiento: La base de conocimientos del modelo está actualizada hasta Diciembre de 2023.
📊 Métricas y puntos de referencia de rendimiento
El Llama 3.2 90B Vision Instruct Turbo demuestra rendimiento excepcional a través de varios puntos de referencia críticos en la comprensión multimodal, lo que demuestra su ventaja competitiva:
- ⭐ Comprensión de gráficos (ChartQA): Coincide con el GPT-4o de OpenAI en precisión.
- ⭐ Interpretación de diagramas científicos (AI2D): Supera al Claude 3 Opus de Anthropic y al Gemini 1.5 Pro de Google.
Comparación con otros modelos: Este modelo es un competidor formidable contra los modelos de IA líderes como Claude 3 Haiku y GPT-4o-mini, destacándose particularmente en sus capacidades de reconocimiento de imágenes y comprensión visual integral.
📝 Pautas de uso y licencias
Ejemplos de código para la integración
Los desarrolladores pueden integrar Llama 3.2 90B Vision Instruct Turbo en sus aplicaciones mediante llamadas API estándar. Para obtener instrucciones detalladas de implementación y ejemplos de código, consulte la documentación oficial de la API proporcionada por las plataformas que alojan este modelo (p. ej., Together.ai para tareas de visión que requieren completar el chat).
🛡️ Pautas éticas y seguridad
Para garantizar un despliegue responsable y ético, el modelo está equipado con un nuevo Modelo de seguridad Llama GuardEsta función es crucial para mitigar posibles sesgos y promover el uso justo y seguro de sus funcionalidades avanzadas de IA.
📜 Licencias y restricciones de uso comercial de la UE
Los modelos Llama 3.2, incluidas todas las capacidades multimodales asociadas, se rigen por un acuerdo de licencia específicoUna cláusula importante dentro de este acuerdo es la Restricción del uso comercial dentro de Europa. Según el Política de uso aceptable de Llama 3.2, personas u organizaciones con sede en la Unión Europea son No se conceden derechos para utilizar estos modelos con fines comerciales..
Información importante para desarrolladores: Esta restricción es esencial para desarrolladores y organizaciones que consideren implementar los modelos de Llama 3.2 en sus aplicaciones dentro de la UE. Para obtener información completa y detallada sobre el uso aceptable y las condiciones de licencia, consulte la Política de uso de Llama 3.2.
❓ Preguntas frecuentes (FAQ)
P1: ¿Qué es Llama 3.2 90B Vision Instruct Turbo?
A: Es el último modelo de IA multimodal a gran escala de Meta, lanzado el 25 de septiembre de 2024, diseñado para procesar texto e imágenes con 90 mil millones de parámetros, ofreciendo una comprensión visual y del lenguaje avanzada.
P2: ¿Cuáles son las principales capacidades de este modelo?
A: Sus capacidades principales incluyen procesamiento de imágenes de alta resolución (hasta 1120x1120 píxeles), soporte de contexto de gran longitud (hasta 128k tokens) y un sólido desempeño en tareas como subtítulos de imágenes, respuesta visual a preguntas y análisis de documentos.
P3: ¿Cómo se compara Llama 3.2 90B Vision Instruct Turbo con otros modelos de IA?
A: Iguala al GPT-4o de OpenAI en comprensión de gráficos y supera al Claude 3 Opus de Anthropic y al Gemini 1.5 Pro de Google en interpretación de diagramas científicos, lo que lo posiciona entre los modelos de IA multimodales de primer nivel.
P4: ¿Existen restricciones sobre su uso comercial?
A: Sí, es fundamental señalar que el uso comercial de los modelos de Llama 3.2 no está permitido para personas u organizaciones con sede en la Unión Europea, como se establece en la Política de uso aceptable de Llama 3.2.
P5: ¿Cuál es el nivel de corte de conocimiento para Llama 3.2 90B Vision Instruct Turbo?
A: Los datos de entrenamiento del modelo incorporan conocimiento hasta diciembre de 2023.
Patio de juegos de IA



Acceso