Aus

Chat

deaktivieren

Bild 3

Googles Imagen 3 erzeugt realistische Bilder aus Text; sicherere Ergebnisse werden durch Vertex AI erzielt.

Gratis-Tokens im Wert von 1 $ für neue Mitglieder

Text to Speech

Javascript

Python

                                        const fs = require('fs');
const path = require('path');

const main = async () => {
  const response = await fetch('https://api.ai.cc/v1/images/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      prompt: 'A jellyfish in the ocean',
      model: 'imagen-3.0-generate-002',
    }),
  }).then((res) => res.json());

  response['data'].forEach((image, i) => {
    const buffer = Buffer.from(image['url'], 'base64');
    fs.writeFileSync(path.join(__dirname, `image_${i + 1}.png`), buffer);
});
};

main();

                                        import requests


def main():
    response = requests.post(
        "https://api.ai.cc/v1/images/generations",
        headers={
            "Authorization": "Bearer ",
            "Content-Type": "application/json",
        },
        json={
            "prompt": "A jellyfish in the ocean",
            "model": "imagen-3.0-generate-002",
        },
    )

    response.raise_for_status()
    data = response.json()

    for i, image in enumerate(data["data"]):
        with open(f"image_{i+1}.png", "wb") as f:
            f.write(base64.b64decode(image["url"]))


if __name__ == "__main__":
    main()

Docs

Über 300 KI-Modelle für OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten und erhalten Sie 1 $ gratis!

API-Schlüssel abrufen Modelle entdecken

Bild 3

Produktdetails

✨ Einführung zu Bild 3

Bild 3 Googles hochmodernes KI-Modell zur Umwandlung von Text in Bild revolutioniert die Erstellung fotorealistischer Bilder aus einfachen Textbeschreibungen. Veröffentlicht im Jahr Juli 2024Diese Version baut auf ihren Vorgängern auf und bietet beispiellose Detailgenauigkeit, brillante Beleuchtung und eine erstaunliche Reduzierung visueller Artefakte. Sie setzt neue Maßstäbe für das natürliche Sprachverständnis und führt eine deutlich verbesserte Textdarstellung in Bildern ein, wodurch sich völlig neue kreative Möglichkeiten eröffnen.

„Imagen 3 ist Googles neuestes KI-Modell zur Umwandlung von Text in Bild. Es wurde entwickelt, um aus Textbeschreibungen hochwertige, fotorealistische Bilder mit verbesserter Detailgenauigkeit, besserer Beleuchtung und weniger Artefakten zu generieren.“
— Zitiert aus Originalbild 3 Beschreibung

🔑 Hauptmerkmale von Imagen 3

✨ Hochwertige Bildgenerierung: Erzeugt realistische Bilder mit außergewöhnlicher Detailgenauigkeit, satterer Beleuchtung und minimalen visuellen Artefakten.
💡 Verbesserte natürliche Sprachverarbeitung: Die Fähigkeit, komplexe Eingabeaufforderungen zu interpretieren, wurde deutlich verbessert, wodurch der Bedarf an aufwendiger Eingabeaufforderungsgestaltung reduziert wurde.
✍️ Bessere Textdarstellung: Bietet eine überlegene Textwiedergabe in generierten Bildern und erweitert so die kreativen Anwendungsmöglichkeiten.
🧠 Kontextbewusstsein & Kohärenz: Nutzt einen ausgeklügelten Mechanismus zur Szenenkomposition, um die logische Kohärenz der generierten Bilder zu gewährleisten.
🔍 Höhere Auflösung & Realismus: Erzeugt Bilder in Ultra-High-Definition, die von echten Fotografien praktisch nicht zu unterscheiden sind.

🎯 Vorgesehene Anwendungsfälle

Imagen 3 eignet sich ideal zur Generierung realistischer Bilder aus Textbeschreibungen für verschiedene Anwendungen, darunter Marketing-, Werbe-, Design- und KreativprojekteEs eignet sich perfekt für Unternehmen, die maßgeschneiderte Visualisierungen benötigen, und für Entwickler, die Anwendungen erstellen, die hochwertige Bildgenerierungsfunktionen erfordern.

⚙️ Technische Details

Architektur: Nutzt einen Deep-Learning-Ansatz, der ein Sprachmodell (wie Googles T5) mit einem generativen adversariellen Netzwerk (GAN) oder Diffusionsmodell kombiniert.
Trainingsdaten: Trainiert anhand massiver Datensätze von Text-Bild-Paaren mit angereicherten Bildunterschriften, um feinere Nuancen zu erfassen.
Diversität & Voreingenommenheit: Beinhaltet umfangreiche Filterung und Datenkennzeichnung, um schädliche Inhalte im Trainingsdatensatz zu minimieren und so eine verantwortungsvolle KI-Generierung zu gewährleisten.

📈 Leistungskennzahlen

Visuelle Qualität: Erreicht höchste Punktzahlen für visuelle Qualität und erzeugt ansprechende und weitgehend artefaktfreie Bilder.
Schnelle Genauigkeit: Zeigt eine hohe Treffsicherheit bei der Beantwortung komplexer Anfragen.

📊 Vergleich mit anderen Modellen

Die menschliche Bewertung auf GenAI-Bench zeigt durchweg die überlegene Leistung von Imagen 3 in Gesamtpräferenz-Benchmarks gegenüber anderen führenden Modellen.

GenAI-Bench Elo-Werte für Imagen 3 im Vergleich zu anderen Modellen — Menschliche Bewertung auf GenAI-Bench: Elo-Werte im Gesamtpräferenz-Benchmark für Imagen 3 im Vergleich zu anderen Modellen.

GenAI-Bench-Gewinnratenprozentsätze für Imagen 3 im Vergleich zu anderen Modellen — Menschliche Bewertung auf GenAI-Bench: Gewinnraten in Prozent für die Gesamtpräferenz von Imagen 3 gegenüber anderen Modellen.

🚀 Erste Schritte mit Imagen 3

Codebeispiele:

Integrieren Sie Imagen 3 mithilfe der bereitgestellten Code-Snippets in Ihre Anwendungen. Die generierten Bilder werden direkt auf Ihrem Computer gespeichert.

Parameter für die Bildgenerierung:

num_images [int]: Gibt die Anzahl der zu generierenden Bilder an.
Seed [int]: Legt den Zufallsgenerator für die reproduzierbare Bilderzeugung fest.
enhance_prompt [boolean]: Optionaler Parameter zur Nutzung einer LLM-basierten Funktion zum Umschreiben von Eingabeaufforderungen, um qualitativ hochwertigere Bilder zu erzeugen, die besser mit der ursprünglichen Intention der Eingabeaufforderung übereinstimmen. Die Deaktivierung dieser Funktion kann die Bildqualität und die Einhaltung der Vorgaben beeinträchtigen.
convert_base64_to_url [boolean]: Wenn dies zutrifft, wird die Bild-URL zurückgegeben; andernfalls wird die Bilddatei im Base64-Format bereitgestellt.
Seitenverhältnis [1:1, 9:16, 16:9, 3:4, 4:3]: Definiert das Seitenverhältnis des generierten Bildes.
person_generation [dont_allow, allow_adult]: Steuert die Generierung von Personen durch das Modell.
Sicherheitseinstellung [block_niedrig_und_über, block_mittel_und_über, block_nur_hoch]: Fügt den Sicherheitsmechanismen eine Filterebene hinzu.

Erwartetes Antwortformat:

Nach erfolgreicher Generierung erhalten Sie eine JSON-Antwort, die in etwa so aussieht:

{  "data" : [ { "mime_type" : "image/png" , "url" : "base64image / url" , "prompt" : "erweiterte Eingabeaufforderung" } ] }

Das Modell ist leicht verfügbar auf der KI/ML-API-Plattform unter dem Namen "Imagen 3".

Umfassende API-Dokumentation:

Ausführlich API-Dokumentation steht Entwicklern zur Verfügung, die detaillierte Informationen suchen.

🛡️ Ethische Richtlinien & Verantwortungsvolle KI

Sicherheit geht vor: Entwickelt unter Berücksichtigung höchster Sicherheitsstandards und verantwortungsvoller Vorgehensweisen, unter strikter Einhaltung der KI-Prinzipien von Google.
Digitales Wasserzeichen (SynthID): Beinhaltet SynthID zur eindeutigen Kennzeichnung KI-generierter Inhalte und fördert so die Transparenz.
Schutz vor schädlichen Inhalten: Setzt hochentwickelte Sicherheitsfilter ein, um die Entstehung schädlicher Inhalte konsequent zu verhindern.
Daten-Governance: Setzt strenge Richtlinien zur Datenverwaltung ein, um sicherzustellen, dass Kundendaten niemals zu Schulungszwecken verwendet werden.

📄 Lizenzierung & Nutzung

Bei der Verwendung von Imagen 3 ist es unerlässlich, Googles Richtlinien für verantwortungsvolle KI und Nutzung einzuhalten. Für bestimmte Anwendungsfälle, wie beispielsweise die Erstellung von Bildern mit Personen, können zusätzliche Genehmigungen von Google erforderlich sein. Falls Ihr Projekt die Erstellung solcher Bilder beinhaltet, stellen Sie sicher, dass Sie die notwendigen Genehmigungsverfahren befolgen.

Greifen Sie auf die Imagen 3 API zu und beginnen Sie Ihre kreative Reise HierDie

❓ Häufig gestellte Fragen (FAQ)

Frage 1: Was ist Bild 3?

A1: Imagen 3 ist Googles neuestes KI-Modell zur Umwandlung von Text in Bild. Es wurde im Juli 2024 veröffentlicht und ist darauf ausgelegt, aus Textbeschreibungen hochwertige, fotorealistische Bilder mit verbesserter Detailgenauigkeit, Beleuchtung und natürlichem Sprachverständnis zu generieren.
Frage 2: Inwiefern verbessert Imagen 3 die Vorgängerversionen?

A2: Es bietet eine überlegene Bildqualität, eine sattere Ausleuchtung, weniger visuelle Artefakte, ein besseres Verständnis komplexer Eingabeaufforderungen, eine verbesserte Textwiedergabe innerhalb von Bildern und eine höhere Auflösung.
F3: Kann ich Imagen 3 für kommerzielle Projekte verwenden?

A3: Ja, Imagen 3 ist für verschiedene Anwendungen wie Marketing, Werbung und Design vorgesehen. Für bestimmte Anwendungen, wie beispielsweise die Erstellung von Bildern von Personen, können jedoch zusätzliche Genehmigungen von Google erforderlich sein.
Frage 4: Welche Maßnahmen gibt es für den ethischen Einsatz von KI?

A4: Imagen 3 integriert digitale Wasserzeichen (SynthID), verwendet Sicherheitsfilter, um schädliche Inhalte zu verhindern, und befolgt strenge Richtlinien zur Datenverwaltung, die mit den KI-Prinzipien von Google übereinstimmen.
Frage 5: Wo kann ich auf die Imagen 3 API zugreifen?

A5: Die Imagen 3 API ist verfügbar auf der KI/ML-API-PlattformEine detaillierte API-Dokumentation finden Sie hier. HierDie

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.

Kostenlos testen

Mehr als 300 KI-Modelle für
OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten