



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'Meta-Llama/Llama-Guard-7b',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="Meta-Llama/Llama-Guard-7b",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Detalle del producto
Conversaciones más seguras entre humanos e IA con Llama Guard (7B)
Llama Guard, construida sobre el poderoso Llama2-7b La arquitectura es un modelo de vanguardia basado en LLM, meticulosamente diseñado para mejorar significativamente la seguridad e integridad de las interacciones entre humanos y IA. Integra una sofisticada taxonomía de riesgos de seguridad, que proporciona un marco sólido para clasificar los riesgos potenciales tanto en las indicaciones del usuario como en las respuestas generadas por la IA.
✅ Rendimiento excepcional: Llama Guard ofrece un rendimiento consistentemente igual o incluso superior al de las herramientas de moderación de contenido existentes en parámetros críticos como el conjunto de datos de evaluación de moderación de OpenAI y ToxicChat. Este modelo se optimiza con un conjunto de datos de alta calidad y cuidadosamente seleccionados, lo que garantiza su fiabilidad y eficacia en la seguridad de la IA.
🔍 Taxonomía integral de riesgos de seguridad
En el corazón de las capacidades de Llama Guard se encuentra su taxonomía de riesgos de seguridadEsta herramienta fundamental proporciona un enfoque sistemático para identificar y categorizar problemas de seguridad específicos en dos áreas clave cruciales para una moderación sólida de LLM:
- Clasificación rápida: Analizar la entrada del usuario para detectar posibles riesgos de seguridad antes de que se genere una respuesta de IA.
- Clasificación de respuesta: Evaluar el resultado de la IA para garantizar que cumpla con las pautas de seguridad y permanezca libre de contenido dañino.
Este marco sistemático mejora significativamente la capacidad del modelo para garantizar interacciones seguras y apropiadas dentro de las conversaciones generadas por IA, lo que lo convierte en una herramienta invaluable para la moderación de contenido.
Rendimiento avanzado y ajuste fino para la moderación de LLM
A pesar de utilizar un volumen de datos más compacto, Llama Guard exhibe rendimiento excepcional, que a menudo supera a las soluciones de moderación de contenido existentes tanto en precisión como en fiabilidad. Sus principales fortalezas incluyen:
- Clasificación multiclase: Capaz de identificar varias categorías de riesgos dentro del contenido.
- Puntuaciones de decisión binaria: Proporcionar evaluaciones claras de “seguro” o “inseguro” para tomar medidas rápidas.
- Ajuste fino de instrucciones: Este proceso crucial permite una personalización profunda, lo que permite que el modelo se adapte a los requisitos específicos de cada tarea y formatos de salida. Esto convierte a Llama Guard en una herramienta increíblemente... herramienta flexible Para diversas aplicaciones relacionadas con la seguridad.
💡 Personalización y adaptabilidad perfecta
El poder del ajuste fino de las instrucciones se extiende al extraordinario sistema de Llama Guard. personalización y adaptabilidad, lo que permite medidas de seguridad de IA personalizadas. Los usuarios pueden:
- Ajustar categorías de taxonomía: Adapte la taxonomía de seguridad a las necesidades organizacionales específicas o a los estándares de la industria para una moderación de contenido más precisa.
- Facilitar la indicación de cero disparos o de pocos disparos: Se integra perfectamente con diversas taxonomías y se adapta rápidamente a nuevos requisitos de seguridad sin necesidad de una capacitación exhaustiva.
Este alto grado de flexibilidad garantiza que Llama Guard pueda proporcionar medidas de seguridad personalizadas en una amplia gama de casos de uso de interacción con IA, mejorando la seguridad general de la conversación entre humanos e IA.
Disponibilidad abierta y futuro colaborativo en la seguridad de la IA
Para fomentar la innovación y la mejora colectiva en la moderación y seguridad de la IA, Los pesos de los modelos Llama Guard están disponibles públicamente.Este enfoque de código abierto alienta activamente a investigadores y desarrolladores a:
- Refinar aún más el modelo: Mejorar sus capacidades y abordar los desafíos de seguridad emergentes en las conversaciones entre humanos e IA.
- Adaptarse a las necesidades cambiantes: Personalice Llama Guard según los requisitos específicos de la comunidad y diversos casos de uso.
Este compromiso con el desarrollo abierto tiene como objetivo impulsar el progreso continuo en la creación de entornos de IA más seguros y el avance de las técnicas de moderación LLM.
⚙️ Cómo utilizar Llama Guard para sus solicitudes de LLM
La integración de Llama Guard en sus aplicaciones puede optimizarse para mejorar la moderación de contenido. Si bien el contenido original hacía referencia a un fragmento específico para su uso, generalmente los desarrolladores pueden usar Llama Guard para tareas robustas de moderación de contenido dentro de sus aplicaciones LLM. Esto suele implicar enviar indicaciones del usuario o respuestas de IA al modelo para su clasificación de seguridad.
Ejemplo de caso de uso: Implemente Llama Guard como un paso de preprocesamiento para las entradas del usuario para filtrar mensajes dañinos, o como un paso de posprocesamiento para las salidas de IA para garantizar que el contenido generado sea seguro y cumpla con sus estándares.
Para obtener más detalles sobre la implementación, consulte la documentación oficial o los recursos de la comunidad una vez que se acceda a los pesos del modelo para aprovechar al máximo sus capacidades de seguridad de IA.
❓ Preguntas frecuentes (FAQ)
1. ¿Para qué está diseñado Llama Guard (7B)?
Llama Guard (7B), desarrollado sobre Llama2-7b, es un modelo basado en LLM diseñado específicamente para mejorar la seguridad de las conversaciones entre humanos e IA al clasificar los riesgos de seguridad tanto en las indicaciones del usuario como en las respuestas de la IA utilizando una taxonomía integral de riesgos de seguridad.
2. ¿Cómo garantiza Llama Guard la seguridad del contenido y la moderación de LLM?
Utiliza un modelo adaptado a las instrucciones y una taxonomía detallada de riesgos de seguridad para la clasificación de múltiples clases, brindando puntajes de decisión binarios para identificar y marcar contenido o indicaciones inseguras y realizando una clasificación tanto de indicaciones como de respuestas.
3. ¿Puedo personalizar las pautas de seguridad y la taxonomía de Llama Guard?
Sí, a través del ajuste fino de las instrucciones, Llama Guard permite una personalización significativa de las categorías de taxonomía y admite indicaciones de cero disparos o de pocos disparos, lo que lo hace altamente adaptable a diversos requisitos de seguridad y casos de uso.
4. ¿El modelo de Llama Guard está disponible para uso público o investigación?
Sí, los pesos del modelo Llama Guard están disponibles públicamente para alentar a los investigadores y desarrolladores a refinar y adaptar aún más el modelo, fomentando la mejora continua en las prácticas de moderación y seguridad de la IA.
5. ¿Cómo se compara Llama Guard con otras herramientas de moderación de contenido?
Llama Guard demuestra un rendimiento excepcional, igualando o superando la precisión y confiabilidad de las soluciones de moderación de contenido existentes en puntos de referencia clave como OpenAI Moderation Evaluation y ToxicChat, a pesar de su volumen de datos relativamente menor.
Información adaptada de: Original: Llama Guard (7B) Descripción
Patio de juegos de IA



Acceso