qwen-bg
max-ico04
En
Afuera
max-ico02
Charlar
max-ico03
desactivar
Llama Guard 3 11B Visión Turbo
Llama Guard 3 Vision es un modelo de seguridad de contenido multimodal para detectar mensajes de texto e imágenes dañinos, lo que garantiza una IA responsable.
Tokens gratis de $1 para nuevos miembros
Text to Speech
                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'meta-llama/Llama-Guard-3-11B-Vision-Turbo',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();
                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="meta-llama/Llama-Guard-3-11B-Vision-Turbo",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")
Docs

Una API con más de 300 modelos de IA

Ahorre un 20% en costos y $1 en tokens gratis
qwenmax-bg
imagen
Llama Guard 3 11B Visión Turbo

Detalle del producto

ⓘ Descripción general: Llama Guard 3 11B Vision

Llama Guard 3 11B Visión es un clasificador de seguridad de contenido multimodal de vanguardia desarrollado por Meta. Publicado el 6 de diciembre de 2023Este modelo de la versión Llama 3.2 está diseñado específicamente para mejorar la seguridad de las aplicaciones del modelo de lenguaje grande (LLM) al detectar contenido dañino tanto en entradas como en respuestas de texto e imágenes.

  • Nombre del modelo: Llama Guard 3 11B Visión
  • Revelador: Meta
  • Fecha de lanzamiento: 6 de diciembre de 2023
  • Tipo de modelo: Clasificador de seguridad de contenido multimodal (texto e imagen)

🔍 Características clave para una mayor seguridad en el LLM

Este modelo aporta avances significativos a la moderación de contenido, especialmente en escenarios multimodales complejos, garantizando interacciones de IA más seguras.

  • Detección de contenido dañino: Identifica contenido inapropiado o inseguro tanto en entradas de texto como de imágenes, protegiendo las interacciones de LLM.
  • Optimizado para razonamiento de imágenes: Se destaca en escenarios donde el contexto visual es crucial para una clasificación de seguridad precisa.
  • Salida de seguridad detallada: Genera salidas de texto claro que indican niveles de seguridad y categorías de contenido violado específico para obtener información procesable.
  • Rendimiento superior: Supera a modelos líderes como GPT-4o y GPT-4o mini en la clasificación de respuestas, presentando tasas de falsos positivos significativamente más bajas.

💬 Uso previsto y compatibilidad con idiomas

Llama Guard 3 11B Vision está diseñado principalmente para casos de uso que requieren una detección robusta de contenido dañino en entradas y respuestas multimodales. Es una herramienta esencial para desarrolladores y organizaciones que buscan garantizar la seguridad y el uso ético de sus aplicaciones LLM.

  • 💬 Aplicación principal: Cómo proteger las aplicaciones LLM de contenido multimodal dañino.
  • 💬 Idioma optimizado: Desarrollado y optimizado principalmente para el idioma en Inglés.

📚 Análisis técnico profundo

Comprender la arquitectura y la metodología de entrenamiento revela la solidez y las capacidades avanzadas de Llama Guard 3 11B Vision.

Arquitectura

El modelo se basa en un Modelo preentrenado Llama-3.2-11B, que ha sido ajustado meticulosamente específicamente para tareas de clasificación de seguridad de contenido, aprovechando sus poderosas capacidades fundamentales para lograr una precisión superior.

Estrategia de datos de entrenamiento

El régimen de entrenamiento utilizó un sofisticado conjunto de datos híbridoEste conjunto de datos combina datos generados por humanos y sintéticos, lo que garantiza una cobertura completa de diversos escenarios perjudiciales y mejora su aplicabilidad en el mundo real. Incluye:

  • Indicaciones creadas por humanos emparejado con diversas imágenes correspondientes.
  • Respuestas modelo benignas y violadoras generado utilizando modelos internos de Llama y técnicas avanzadas de jailbreak para simular ataques adversarios del mundo real.

Fuente y tamaño de los datos

El conjunto de datos es excepcionalmente diverso e incluye una amplia gama de pares de imágenes de aviso. Estos pares están meticulosamente etiquetados por anotadores humanos o por el sistema avanzado Modelo Llama 3.1 405BLos datos abarcan todas las categorías de peligro definidas por ML Commons, lo que garantiza una base de entrenamiento amplia y completa. Para el procesamiento de imágenes, el codificador de visión reescala eficientemente las imágenes en cuatro fragmentos, cada uno de 560x560 píxeles.

Diversidad y mitigación de sesgos

Compromiso con la diversidad: El proceso de curación priorizó la creación de un conjunto de datos que realmente refleje una variedad diversa de pares de imágenes y estímulos, que abarquen todas las categorías de riesgo definidas para minimizar el sesgo y mejorar la detección sólida en varios escenarios.

Métricas de rendimiento y evaluación comparativa

La eficacia de Llama Guard 3 11B Vision se evalúa rigurosamente con un conjunto de pruebas interno que cumple con la taxonomía de riesgos de MLCommons. El modelo ofrece consistentemente un alto rendimiento y fiabilidad.

Puntuaciones excepcionales en F1: Llama Guard 3 Vision logra puntuaciones F1 superiores 0,69 en todas las categorías de riesgo, incluidas áreas desafiantes como armas indiscriminadas y elecciones, demostrando alta precisión y confiabilidad en todos los ámbitos.

Conjunto de pruebas interno para el rendimiento de Llama Guard 3 Vision
Conjunto de pruebas interno para Llama Guard 3 Vision

Comparación con otros modelos industriales

En comparaciones cara a cara, Llama Guard 3 Vision demuestra capacidades superiores frente a modelos destacados como GPT-4o y GPT-4o mini. Esta superioridad es particularmente evidente en la clasificación de respuestas, donde alcanza puntuaciones F1 más altas y tasas de falsos positivos significativamente menores. El diseño del modelo minimiza eficazmente los ataques basados ​​en indicaciones al basarse más en la respuesta del modelo para la clasificación, abordando así la ambigüedad inherente de las indicaciones combinadas de texto e imagen con mayor precisión.

Comparación de Flame Guard 3 Vision con GPT-4o y GPT-4o Mini
Comparación de la visión de Llama Guard 3

🔑 Uso y acceso a la API

Integrar Llama Guard 3 11B Vision en sus aplicaciones es sencillo y proporciona funciones de seguridad de contenido sólidas con facilidad.

Ejemplos de código:

El modelo está disponible en el Plataforma API de IA/ML bajo el identificador "Llama-Guardia-3-11B-Visión-Turbo". Acceder a la API aquí Para empezar.

Documentación de la API:

Para obtener orientación técnica detallada, instrucciones de integración e información completa, consulte el sitio web oficial. Documentación de la API.

📒 Pautas éticas y limitaciones

Es fundamental comprender las consideraciones éticas y las limitaciones específicas asociadas con Llama Guard 3 11B Vision para una implementación responsable y efectiva dentro de sus aplicaciones.

Nota importante: Llama Guard 3 Vision está optimizado para Llama 3.2-vision. Su rendimiento y capacidades están intrínsecamente ligados a sus datos de preentrenamiento. no intencionado para servir como clasificador de seguridad de imágenes independiente o como clasificador de seguridad de solo texto. Está diseñado para seguridad del contenido multimodal específicamente dentro del contexto de las aportaciones y respuestas del LLM para proporcionar una defensa en capas.

Para comenzar a aprovechar las potentes capacidades de Llama Guard 3 11B Vision Turbo API, puede Empieza aquí.

ⓘ Preguntas frecuentes (FAQ)

P1: ¿Qué es Llama Guard 3 11B Vision?
A1: Es un modelo de clasificación de seguridad de contenido multimodal desarrollado por Meta, diseñado específicamente para detectar contenido de texto e imágenes dañinos en entradas y respuestas del Modelo de Lenguaje Grande (LLM).
P2: ¿Qué tipos de contenido puede detectar Llama Guard 3 11B Vision?
A2: Está diseñado para detectar contenido dañino en formatos de texto e imagen, lo que lo hace muy eficaz para la seguridad LLM multimodal y la moderación de contenido.
P3: ¿Cómo se compara su rendimiento con otros modelos de seguridad como GPT-4o?
A3: Llama Guard 3 Vision demuestra un rendimiento superior en comparación con GPT-4o y GPT-4o mini, particularmente en la clasificación de respuesta, logrando puntajes F1 más altos y tasas de falsos positivos significativamente más bajas.
P4: ¿Llama Guard 3 11B Vision es adecuado para una clasificación independiente de solo texto o solo de imágenes?
A4: No, está específicamente diseñado y optimizado para la seguridad de contenido multimodal dentro de contextos LLM y no está destinado a usarse como un clasificador independiente de solo texto o solo imágenes.
Q5: ¿Cómo puedo acceder a la API de visión de Llama Guard 3 11B?
A5: El modelo está disponible en la plataforma API de IA/ML con el identificador "Llama-Guard-3-11B-Vision-Turbo". Puede encontrar acceso y documentación detallada en el sitio web oficial de la plataforma.

Patio de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Una API
Más de 300 modelos de IA

Ahorre un 20% en costos