Aus

Chat

deaktivieren

Veo 3.1 Referenz-zu-Video

Nativer Audioinhalt kann automatisch erstellt und mit visuellen Inhalten synchronisiert werden, wodurch Realismus und Kohärenz der Ausgabe verbessert werden.

Gratis-Tokens im Wert von 1 $ für neue Mitglieder

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/video/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'google/veo-3.1-reference-to-video',
      prompt: 'A graceful ballerina dancing outside a circus tent on green grass, with colorful wildflowers swaying around her as she twirls and poses in the meadow.',
      image_urls: [
        'https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-1.png',
        'https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-2.png',
        'https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-3.png',
      ],
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                        import requests


def main():
    url = "https://api.ai.cc/v2/video/generations"
    payload = {
        "model": "google/veo-3.1-reference-to-video",
        "prompt": "A graceful ballerina dancing outside a circus tent on green grass, with colorful wildflowers swaying around her as she twirls and poses in the meadow.",
        "image_urls": [
            "https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-1.png",
            "https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-2.png",
            "https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-3.png"
        ]
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()

Docs

Über 300 KI-Modelle für OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten und erhalten Sie 1 $ gratis!

API-Schlüssel abrufen Modelle entdecken

Veo 3.1 Referenz-zu-Video

Produktdetails

Einführung von Veo 3.1: Videoreferenz

Google DeepMind Veo 3.1 Referenz-zu-Video ist ein fortschrittliches KI-Modell, das neue Maßstäbe in der Videogenerierung setzt. Es ermöglicht Nutzern beispiellose kreative Kontrolle, indem es ihnen erlaubt, Videostil und Szenenkomposition mithilfe von Referenzbildern zu steuern. Diese innovative Funktionalität gewährleistet künstlerische Konsistenz und nahtlose Integration von Szenenelementen. Veo 3.1 erzeugt nativ hochauflösende 8-Sekunden-Videos bei 720p- oder 1080p-Auflösung, inklusive synchronisiertem Audio für ein umfassendes Sinneserlebnis.

Quelle: Veo 3.1 – Zutaten zum Video

Technische Spezifikationen und Leistung

✅ Kernspezifikationen

Eingabemodalitäten: Text-zu-Video, Bild-zu-Video (Referenzbilder), Video-zu-Video
Ausgabeauflösung: 720p und 1080p (Seitenverhältnis 16:9)
Videolänge: Maximal 8 Sekunden bei Verwendung von Referenzbildern (erweiterbar für längere Erzählungen)
Bildrate: 24 Bilder pro Sekunde für flüssige Bewegungen
Audio: Native generiert und perfekt mit Videoinhalten synchronisiert

📈 Leistungsbenchmarks

Visuell ansprechende Videos: Erzeugt innerhalb weniger Minuten beeindruckende Videos mit realistischer Beleuchtung, komplexen Schatten und flüssigen Bewegungen.
Filmische und vielfältige Stile: Ausgezeichnet in der Adaption und Bewahrung verschiedener filmischer und künstlerischer Stile anhand von Referenzbildern, wodurch ein einheitliches Layout gewährleistet wird.
Stabil und in Entwicklung: Bietet eine stabile Modellverfügbarkeit mit kontinuierlichen Verbesserungen und fortschrittlichen Funktionen, die sich derzeit in der Vorschauphase befinden.

Hauptmerkmale von Veo 3.1

🖼️ Referenz-zu-Video-Steuerung: Nutzen Sie bis zu drei Referenzbilder, um den ästhetischen Stil und das detaillierte Szenenlayout präzise festzulegen.
🎵 Native Audiogenerierung: Erzeugt automatisch hochwertige, synchronisierte Musik oder überzeugende Soundeffekte, die Ihr Video perfekt ergänzen.
💻 Hochauflösende Definition: Liefert professionelle 720p- und 1080p-Ausgabe, ideal für eine Vielzahl von Anwendungen.
⏱️ Kurze Videodauer: Optimiert für die Erstellung wirkungsvoller Clips von bis zu 8 Sekunden Länge, perfekt für dynamische, prägnante Inhalte.
⭐ Framespezifische Generierung: Erhalten Sie die ultimative Kontrolle, indem Sie das erste und letzte Bild definieren und so präzise Videosequenzen erzeugen können.
📏 Videoerweiterung: Bereits erstellte Videos lassen sich nahtlos erweitern, um längere Geschichten zu erzählen oder ausführlichere Erzählungen zu erstellen.

API-Preise

💰 0,21 $ / Sekunde (Ton aus)
💰 0,42 $ / Sekunde (Ton an)

Eine kostengünstige Lösung für die Erstellung hochwertiger Videos, die auf Ihre Bedürfnisse zugeschnitten sind.

Vielseitige Anwendungsfälle

🎦 Film & Storyboarding: Beschleunigt die Erstellung filmischer Kurzclips anhand von Textvorgaben und Referenzbildern, ideal für die Vorvisualisierung.
📂 Werbung & Marketing: Erstellen Sie ansprechende Produktwerbung und dynamische Social-Media-Videos effizient und kostengünstig.
📱 Social-Media-Inhalte: Erstelle fesselnde Shorts, TikToks und Reels mit einzigartigen, stilisierten audiovisuellen Elementen für maximale Wirkung.
🎓 Lehrvideos: Entwicklung animierter Lehrmittel und Unterrichtsinhalte, angereichert mit synchronisiertem, KI-generiertem Ton.

Wichtige Überlegungen

💭 Optimales Referenzbildmaterial: Referenzbilder liefern die besten Ergebnisse, wenn sie das gewünschte Sujet und den gewünschten künstlerischen Stil deutlich darstellen.
💭 Nutzung mehrerer Referenzen: Die Verwendung mehrerer Referenzbilder verbessert die Fähigkeit des Modells, verschiedene Szenenelemente und komplexe Kompositionen zu verstehen und zu integrieren.
💭 Optimierung von Kurzform-Inhalten: Veo 3.1 ist speziell für die Erstellung kurzer, qualitativ hochwertiger Videoclips optimiert und eignet sich daher ideal für prägnante, wirkungsvolle Inhalte anstatt für langwierige Produktionen.

Codebeispiel & API-Details

Ausführliche Leitfäden zur API-Integration, Codebeispiele und detaillierte Dokumentation zur Verwendung von Veo 3.1 finden Sie in der offiziellen KI/ML-API-Dokumentation:

Zugriff auf die Veo 3.1 API-Dokumentation

(Entwickler finden in der verlinkten Dokumentation eingebettete Code-Snippets und interaktive Beispiele.)

Veo 3.1 im Vergleich zu anderen führenden Modellen

📈 Ich sehe 3.1 gegen Sora 2

Veo 3.1 zeichnet sich dadurch aus, dass es Sora 2 übertrifft in Visueller Realismus, Szenenkohärenz und entscheidende audiovisuelle SynchronisationDadurch eignet sich Veo 3.1 besonders für filmisches Storytelling und kommerzielle Videoproduktionen. Während Sora 2 für seine schnelle Generierung bekannt ist, bietet Veo 3.1 längere Laufzeiten und überlegene Übergänge zwischen mehreren Szenen in verbesserter professioneller Qualität.

📈 Ich sehe 3,1 vs. Ich sehe 3,0

Veo 3.1 stellt einen bedeutenden Fortschritt gegenüber Veo 3.0 dar. Die Videolänge wird von bis zu 12 Sekunden auf beeindruckende 10 Sekunden erweitert. 60 Sekunden und erhöht die Auflösung von 720p auf gestochen scharf 1080p HDZu den wichtigsten Neuerungen gehören natives synchronisiertes Audio, erweiterte Mehrszenensteuerung, integrierte filmische Kameravoreinstellungen und eine deutlich verbesserte Kontinuität von Charakteren und Beleuchtung, wodurch es sich in ein narratives Instrument auf Regisseurniveau verwandelt.

📈 Veo 3.1 vs. Kling 2.1

Kling 2.1 bietet eine starke stilistische Videogenerierung, erzeugt aber im Allgemeinen kürzere Clips mit weniger komplexer Szenenkomposition. Die Fähigkeit von Veo 3.1, Videos zu generieren Nahtlose, einminütige Videos mit integriertem Audio und filmischen Effekten bietet einen entscheidenden Vorteil für Projekte, die hochwertige narrative Videos mit einem konsistenten audiovisuellen Fluss erfordern.

📈 Veo 3.1 vs. Wan 2.5

Wan 2.5 konzentriert sich auf die schnelle Videoerstellung mit einfacher Szenenstrukturierung. Es fehlen jedoch die fortschrittlichen Mehrschuss-Szenenübergänge und die robusten Audiogenerierungsfunktionen von Veo 3.1. Veos Integration von filmischen Voreinstellungen und detaillierter Szenensteuerung eignet sich daher deutlich besser für die Erstellung professioneller und nuancierter Videoinhalte.

Häufig gestellte Fragen (FAQ)

❓ Was ist Veo 3.1 Reference-to-Video?

Veo 3.1 ist Google DeepMinds fortschrittliches KI-Modell zur Erstellung hochauflösender Videos. Es ermöglicht Nutzern, Videostil und Szenenkomposition durch die Bereitstellung von Referenzbildern zu steuern und gewährleistet so künstlerische Konsistenz und kreative Flexibilität.

❓ Wie funktioniert die Steuerung des Referenzbildes?

Nutzer können bis zu drei Referenzbilder hochladen. Das Modell analysiert diese Bilder, um gewünschte künstlerische Stile, Farbpaletten, Beleuchtung und Szenenlayouts zu erfassen und diese visuellen Merkmale anhand begleitender Textanweisungen in das generierte Video zu integrieren.

❓ Was sind die wichtigsten Ausgabespezifikationen von Veo 3.1?

Es erzeugt Videos mit einer Länge von bis zu 8 Sekunden (erweiterbar) und unterstützt 720p- oder 1080p-Auflösung im 16:9-Format mit 24 Bildern pro Sekunde. Ein herausragendes Merkmal ist die native Generierung von synchronisiertem Audio, das perfekt auf den Videoinhalt abgestimmt ist.

❓ Wie verbessert sich Veo 3.1 gegenüber Veo 3.0?

Veo 3.1 bietet bedeutende Verbesserungen, darunter eine erhöhte Videolänge von bis zu 60 Sekunden (vorher 12), eine höhere 1080p HD-Auflösung (vorher 720p), natives synchronisiertes Audio, die Steuerung mehrerer Szenen und erweiterte filmische Kameravoreinstellungen, wodurch es zu einem umfassenderen Werkzeug für narrative Darstellungen wird.

❓ Was sind die Hauptanwendungsgebiete von Veo 3.1?

Veo 3.1 eignet sich ideal für diverse Anwendungen wie Film-Storyboarding, die Erstellung ansprechender Werbe- und Marketinginhalte, die Produktion dynamischer Social-Media-Videos (wie Shorts, TikToks und Reels) und die Entwicklung animierter Lehrmaterialien mit KI-generiertem Sound.

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.

Kostenlos testen

Mehr als 300 KI-Modelle für
OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten