



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'meta-llama/Llama-Guard-3-11B-Vision-Turbo',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="meta-llama/Llama-Guard-3-11B-Vision-Turbo",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Produktdetails
ⓘ Übersicht: Llama Guard 3 11B Vision
Llama Guard 3 11B Vision ist ein hochmoderner multimodaler Inhaltssicherheitsklassifikator, der von MetaVeröffentlicht am 6. Dezember 2023Dieses Llama-3.2-Versionsmodell wurde speziell entwickelt, um die Sicherheit von Anwendungen mit großen Sprachmodellen (LLM) zu verbessern, indem es schädliche Inhalte sowohl in Text- als auch in Bildeingaben und -antworten erkennt.
- ✓ Modellbezeichnung: Llama Guard 3 11B Vision
- ✓ Entwickler: Meta
- ✓ Veröffentlichungsdatum: 6. Dezember 2023
- ✓ Modelltyp: Multimodaler (Text & Bild) Inhaltssicherheitsklassifikator
🔍 Hauptmerkmale für erhöhte LLM-Sicherheit
Dieses Modell bringt bedeutende Fortschritte bei der Inhaltsmoderation, insbesondere in komplexen multimodalen Szenarien, und gewährleistet so sicherere KI-Interaktionen.
- Erkennung schädlicher Inhalte: Identifiziert unangemessene oder unsichere Inhalte sowohl in Text- als auch in Bildeingaben und schützt so die Interaktionen mit LLM.
- Optimiert für Bildanalyse: Eignet sich hervorragende Eigenschaften in Szenarien, in denen der visuelle Kontext für eine genaue Sicherheitsklassifizierung entscheidend ist.
- Detaillierte Sicherheitsausgabe: Erzeugt übersichtliche Textausgaben, die Sicherheitsstufen und spezifische Kategorien von verletzten Inhalten angeben, um daraus konkrete Handlungsempfehlungen abzuleiten.
- Überragende Leistung: Übertrifft führende Modelle wie GPT-4o und GPT-4o mini bei der Reaktionsklassifizierung und weist deutlich niedrigere Falsch-Positiv-Raten auf.
💬 Verwendungszweck & Sprachunterstützung
Llama Guard 3 11B Vision wurde primär für Anwendungsfälle entwickelt, die eine zuverlässige Erkennung schädlicher Inhalte in multimodalen Eingaben und Antworten erfordern. Es ist ein unverzichtbares Werkzeug für Entwickler und Organisationen, die die Sicherheit und ethische Nutzung ihrer LLM-Anwendungen gewährleisten möchten.
- 💬 Hauptanwendung: Schutz von LLM-Anwendungen vor schädlichen multimodalen Inhalten.
- 💬 Optimierte Sprache: Vorrangig entwickelt und optimiert für die Englische SpracheDie
📚 Technischer Tiefeneinblick
Das Verständnis der Architektur und der Trainingsmethodik offenbart die Robustheit und die fortschrittlichen Fähigkeiten von Llama Guard 3 11B Vision.
Architektur
Das Modell basiert auf einem Llama-3.2-11B vortrainiertes Modell, das speziell für Aufgaben der Inhaltssicherheitsklassifizierung sorgfältig optimiert wurde und seine leistungsstarken Grundlagen für eine überragende Genauigkeit nutzt.
Strategie für Trainingsdaten
Das Trainingsprogramm nutzte eine ausgeklügelte Hybrid-DatensatzDieser Datensatz kombiniert sowohl von Menschen erzeugte als auch synthetisch generierte Daten und gewährleistet so eine umfassende Abdeckung verschiedener Schadensszenarien und eine verbesserte Anwendbarkeit in der Praxis. Er umfasst:
- von Menschen erstellte Eingabeaufforderungen gepaart mit verschiedenen entsprechenden Bildern.
- Gutartige und gegen das Modell verstoßende Reaktionen Erstellt mit Hilfe von intern entwickelten Llama-Modellen und fortschrittlichen Jailbreaking-Techniken zur Simulation realer Angriffe.
Datenquelle und Größe
Der Datensatz ist außerordentlich vielfältig und umfasst eine breite Palette von Prompt-Bild-Paaren. Diese Paare sind entweder von menschlichen Annotatoren oder mithilfe fortschrittlicher Software sorgfältig beschriftet. Llama 3.1 405B ModellDie Daten umfassen alle definierten Gefahrenkategorien. MLCommonsDadurch wird eine breite und gründliche Trainingsbasis gewährleistet. Für die Bildverarbeitung skaliert der Vision-Encoder die Bilder effizient in vier Abschnitte von jeweils 560x560 Pixeln.
Diversität und Abbau von Vorurteilen
Bekenntnis zur Vielfalt: Bei der Zusammenstellung des Datensatzes wurde besonderer Wert darauf gelegt, ein Datenset zu erstellen, das eine breite Palette von Prompt-Bild-Paaren aus allen definierten Gefahrenkategorien widerspiegelt, um Verzerrungen zu minimieren und eine robuste Erkennung in verschiedenen Szenarien zu verbessern.
📈 Leistungskennzahlen & Benchmarking
Die Leistungsfähigkeit von Llama Guard 3 11B Vision wird anhand eines internen Testdatensatzes, der sich an der MLCommons-Gefahrenklassifizierung orientiert, streng evaluiert. Das Modell liefert durchweg hohe Leistung und Zuverlässigkeit.
Außergewöhnliche F1-Ergebnisse: Llama Guard 3 Vision erzielt F1-Werte von über 0,69 in jeder Gefahrenkategorie, einschließlich anspruchsvoller Bereiche wie wahlloser Waffeneinsatz und Wahlen, wurde eine durchweg hohe Genauigkeit und Zuverlässigkeit bewiesen.

Vergleich mit anderen Branchenmodellen
Im direkten Vergleich Llama Guard 3 Vision demonstriert überlegene Fähigkeiten Im Vergleich zu bekannten Modellen wie GPT-4o und GPT-4o mini zeigt sich diese Überlegenheit besonders deutlich bei der Antwortklassifizierung, wo das Modell höhere F1-Werte und deutlich niedrigere Falsch-Positiv-Raten erzielt. Das Design des Modells minimiert effektiv promptbasierte Angriffe, indem es sich bei der Klassifizierung stärker auf die Modellantwort stützt und die inhärente Mehrdeutigkeit kombinierter Text- und Bild-Prompts präziser behebt.

🔑 Nutzung & API-Zugriff
Die Integration von Llama Guard 3 11B Vision in Ihre Anwendungen ist unkompliziert und bietet Ihnen auf einfache Weise robuste Funktionen zur Inhaltssicherheit.
Codebeispiele:
Das Modell ist leicht verfügbar auf der KI/ML-API-Plattform unter der Kennung "Llama-Guard-3-11B-Vision-Turbo"Greifen Sie auf die API zu. Hier Um loszulegen.
API-Dokumentation:
Detaillierte technische Anleitungen, Integrationshinweise und umfassende Informationen finden Sie in der offiziellen Dokumentation. API-DokumentationDie
📒 Ethische Richtlinien & Grenzen
Für einen verantwortungsvollen und effektiven Einsatz in Ihren Anwendungen ist es unerlässlich, die ethischen Überlegungen und spezifischen Einschränkungen von Llama Guard 3 11B Vision zu verstehen.
Wichtiger Hinweis: Llama Guard 3 Vision ist auf Llama 3.2-Vision feinabgestimmt. Seine Leistung und Fähigkeiten sind untrennbar mit den vorab trainierten Daten verbunden. nicht beabsichtigt Es dient entweder als eigenständiger Bildsicherheitsklassifikator oder als reiner Textsicherheitsklassifikator. Es ist konzipiert für multimodale Inhaltssicherheit insbesondere im Kontext von LLM-Inputs und -Reaktionen, um eine mehrschichtige Verteidigung zu gewährleisten.
Um die leistungsstarken Funktionen der Llama Guard 3 11B Vision Turbo API nutzen zu können, können Sie Hier geht es losDie
ⓘ Häufig gestellte Fragen (FAQ)
- Frage 1: Was ist Llama Guard 3 11B Vision?
- A1: Es handelt sich um ein multimodales Inhaltssicherheitsklassifizierungsmodell, das von Meta entwickelt wurde und speziell darauf ausgelegt ist, schädliche Text- und Bildinhalte in Eingaben und Antworten des Large Language Model (LLM) zu erkennen.
- Frage 2: Welche Arten von Inhalten kann Llama Guard 3 11B Vision erkennen?
- A2: Es wurde entwickelt, um schädliche Inhalte sowohl in Text- als auch in Bildformaten zu erkennen, wodurch es sich hervorragend für die multimodale LLM-Sicherheit und Inhaltsmoderation eignet.
- Frage 3: Wie schneidet es im Vergleich zu anderen Sicherheitsmodellen wie dem GPT-4o ab?
- A3: Llama Guard 3 Vision zeigt im Vergleich zu GPT-4o und GPT-4o mini eine überlegene Leistung, insbesondere bei der Klassifizierung der Reaktionen, und erzielt höhere F1-Werte sowie deutlich niedrigere Falsch-Positiv-Raten.
- Frage 4: Ist Llama Guard 3 11B Vision für die eigenständige Klassifizierung von reinen Texten oder reinen Bildern geeignet?
- A4: Nein, es wurde speziell für die Sicherheit multimodaler Inhalte im Kontext von LLM entwickelt und optimiert und ist nicht als eigenständiger Klassifikator für reine Text- oder Bildklassifikatoren gedacht.
- Frage 5: Wie kann ich auf die Llama Guard 3 11B Vision API zugreifen?
- A5: Das Modell ist auf der KI/ML-API-Plattform unter der Kennung „Llama-Guard-3-11B-Vision-Turbo“ verfügbar. Zugriff und detaillierte Dokumentation finden Sie auf der offiziellen Website der Plattform.
KI-Spielplatz



Einloggen