Aus

Chat

deaktivieren

Kling V2.1 Standard Bild-zu-Video

Es vereint hochauflösende Ausgabe mit effizienter Bildverarbeitung und dynamischen Kamerasimulationen für vielseitige Multimedia-Anwendungen.

Gratis-Tokens im Wert von 1 $ für neue Mitglieder

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/generate/video/kling/generation', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'kling-video/v2.1/standard/image-to-video',
      prompt: 'Mona Lisa puts on glasses with her hands.',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
      duration: '5',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                        import requests


def main():
    url = "https://api.ai.cc/v2/generate/video/kling/generation"
    payload = {
        "model": "kling-video/v2.1/standard/image-to-video",
        "prompt": "Mona Lisa puts on glasses with her hands.",
        "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
        "duration": "5",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()

Docs

Eine API für über 300 KI-Modelle

Sparen Sie 20 % der Kosten und erhalten Sie 1 $ gratis!

API-Schlüssel abrufen Modelle entdecken

Kling V2.1 Standard Bild-zu-Video

Produktdetails

Der Kling V2.1 Standard Bild-zu-Video Das Generierungsmodell stellt einen bedeutenden Fortschritt im Bereich multimodaler KI-Fähigkeiten dar und bietet eine robuste und vielseitige Videosynthese. Es wandelt statische Bildeingaben, optional unterstützt durch Textanweisungen, in dynamische Videoinhalte um. Diese Version zeichnet sich durch verbesserte Stabilität, höhere Bildqualität und optimierte zeitliche Kohärenz aus und gewährleistet gleichzeitig benutzerfreundliche Zugänglichkeit und effiziente Rechenleistung.

✨ Technische Spezifikationen

• Videogenerierungsqualität: Verwendet fortschrittliche raumzeitliche Faltungstransformatoren in Kombination mit neuartigen Bewegungsinferenzmodulen, um aus einzelnen oder mehreren Schlüsselbildern glatte, konsistente und artefaktminimierte Videosequenzen zu erzeugen.
• Auflösung und Bildrate: Unterstützt Ausgabeauflösungen bis zu 1080p Full HD bei einem stetigen 24 Bilder pro Sekunde, optimiert für einen ausgewogenen Kompromiss zwischen visueller Wiedergabetreue und effizientem Rendering, geeignet für Echtzeitanwendungen und Stapelverarbeitung.
• Eingabeaufforderung & Bildintegration: Verfügt über eine ausgeklügelte, modalitätsübergreifende Fusionsarchitektur, die detaillierte Bildmerkmalextraktion synergistisch mit natürlichsprachlichen Eingabeaufforderungen kombiniert und so eine nuancierte Szenenentwicklung und stilistische Modifikationen ermöglicht.
• Kamera- und Bewegungseffekte: Beinhaltet grundlegende Kamerabewegungssynthese, einschließlich Schwenks, langsamem Zoom und subtilen Parallaxeneffekten, um das Eintauchen in die Spielwelt und das dynamische Geschichtenerzählen zu verbessern und gleichzeitig visuelle Konsistenz und natürliche Übergänge zu gewährleisten.

Kling V2.1 Bild-zu-Video-Generierungsbeispiel

📚 Trainingsdaten

Das Modell wurde anhand eines erweiterten, vielfältigen Multimedia-Korpus trainiert, der gepaarte Bild-Video-Datensätze aus verschiedenen Bereichen umfasst: Filmausschnitte, Naturaufnahmen, Stadtumgebungen und dynamische Kunstwerke. Dieser Datensatz zeichnet sich durch umfangreiche Annotationen und mehrsprachige Beschreibungen aus und ermöglicht so eine starke Generalisierung über Stile, Bewegungen und kulturelle Kontexte hinweg.

📈 Leistungskennzahlen

Kling V2.1 erzielt ein hohes Verhältnis von Wiedergabetreue zu Latenz und liefert nahtlose Videoausgaben mit minimalen zeitlichen Artefakten bei wettbewerbsfähigen Inferenzgeschwindigkeiten. Es unterstützt Stapelverarbeitung und promptgesteuerte Videogenerierung variabler Länge und bietet eine präzise Kontrolle über Bewegungsamplitude und stilistische Konsistenz.

💲 API-Preise

Ab 0,0588 US-Dollar pro Sekunde generiertem Video.

💡 Hauptmerkmale

✅ Direkte Bild-zu-Video-Generierung: Wandelt ein einzelnes Bild oder eine Bilderserie in flüssige und zusammenhängende Videosequenzen um, wobei wesentliche visuelle Elemente erhalten bleiben und gleichzeitig plausible Bewegungen eingeführt werden, die mit der Szenensemantik übereinstimmen.
✅ Multimodale Prompt-Konditionierung: Ermöglicht es den Nutzern, die Videodynamik und -ästhetik über optionale Textanweisungen zu steuern und so die kreative Flexibilität und die narrative Tiefe zu erhöhen.
✅ Verbesserte zeitliche Kohärenz: Integriert neuartige Verfahren zur zeitlichen Regularisierung, wodurch Flimmern, Zittern und Bewegungsdiskontinuitäten deutlich reduziert werden, um einen flüssigen visuellen Fluss über die einzelnen Frames hinweg zu gewährleisten.
✅ Dynamische Kameraemulation: Setzt grundlegende Kamerabewegungen um, darunter subtile Zooms, Schwenks und leichte Rotationsverschiebungen, wodurch die Szenentiefe und die filmische Präsenz verbessert werden, ohne die Leistung zu beeinträchtigen.
✅ Stilistische und kontextuelle Anpassungsfähigkeit: Ausgebildet für die Arbeit in einem breiten Spektrum visueller Genres, darunter Naturlandschaften, urbane Umgebungen, Animationsstile und künstlerische Darstellungen, ermöglicht dies vielfältige kreative Ergebnisse.
✅ Mehrsprachige Unterstützung: Bietet ein zuverlässiges Verständnis und eine effiziente Verarbeitung von Eingabeaufforderungen in Englisch, Chinesisch und weiteren Sprachen und unterstützt so die Bedürfnisse globaler Nutzer sowie ein breites Spektrum internationaler Anwendungen.

🚀 Anwendungsfälle

➤ Künstlerische und kreative Videoentwicklung auf Basis vorhandener visueller Ressourcen.
➤ Videooptimierung und dynamische Szenengestaltung für überzeugende Marketinginhalte.
➤ Soziale Medien und digitales Storytelling: die Umwandlung statischer Bilder in fesselnde Bewegungen.
➤ Vorläufige Konzeptvisualisierung und schnelles Multimedia-Prototyping.
➤ Anwendung in den Bereichen Spieleentwicklung, AR/VR-Inhaltsgenerierung und interaktive Medienerlebnisse.
➤ Erstellung mehrsprachiger Videoinhalte zur Ansprache eines vielfältigen Publikums weltweit.

💻 Codebeispiel

 // Beispielhafter Python-Codeausschnitt für die Integration der Kling V2.1 Image-to-Video API import kling_api # Initialisieren des Kling API-Clients mit Ihrem Authentifizierungsschlüssel client = kling_api.KlingClient(api_key="YOUR_API_KEY") # Definieren Sie Ihr Eingabebild und eine optionale Texteingabeaufforderung image_path = "path/to/your/input_image.jpg" text_prompt = "Ein majestätischer Adler, der bei Sonnenaufgang über schneebedeckten Bergen kreist." video_duration = 5 # Gewünschte Videolänge in Sekunden try: with open(image_path, "rb") as image_file: # Aufruf des Endpunkts zur Bild-zu-Video-Generierung response = client.generate_video( model="kling-video/v2.1/standard/image-to-video", image=image_file.read(), prompt=text_prompt, duration=video_duration ) if response.status == "success": print("Videogenerierung erfolgreich!") print(f"Generierte Video-URL: {response.video_url}") # Weitere Schritte: z. B. das Video herunterladen oder in Ihre Anwendung integrieren else: print(f"Videogenerierung fehlgeschlagen: {response.error_message}") except FileNotFoundError: print(f"Fehler: Bilddatei nicht gefunden unter {image_path}") except Exception as e: print(f"Ein unerwarteter Fehler ist aufgetreten: {e}")

🆚 Vergleich mit anderen Modellen

vs Kling V2.0 Standard I2V: Kling V2.1 bietet bedeutende Verbesserungen und erhöht die Ausgaberesolution von 720p auf 1080pEs zeichnet sich durch eine verbesserte zeitliche Glättung dank optimierter Bewegungserkennungsmodule aus und integriert einen leistungsfähigeren multimodalen Fusionsmechanismus für eine überlegene Bild-Text-Ausrichtung und eine insgesamt konsistentere Videowiedergabe. Sowohl die Inferenzgeschwindigkeit als auch der API-Durchsatz wurden für geringere Latenz und höhere Parallelität optimiert.

vs Kling V1.5 Standard T2V: Während sich V1.5 primär auf die Text-zu-Video-Synthese (T2V) konzentriert, verschiebt der V2.1-Standard I2V das Paradigma hin zu bildkonditionierte Videoerzeugung (I2V). Version 2.1 bietet eine dynamischere Szenendarstellung, die primär durch visuelle Eingaben mit ergänzenden Texthinweisen gesteuert wird und die Einsatzmöglichkeiten deutlich erweitert. Trotz des anderen Fokus auf die Eingabemodalität bietet Version 2.1 auch spürbare Verbesserungen in Bezug auf zeitliche Kontinuität und Auflösung.

❓ Häufig gestellte Fragen (FAQ)

Frage 1: Was sind die Hauptvorteile von Kling V2.1 gegenüber seinem Vorgänger V2.0?

Kling V2.1 bietet bedeutende Verbesserungen, darunter 1080p Full HD-Ausgabeauflösung (bisher 720p), verbesserte zeitliche Glättung und optimierte Bild-Text-Ausrichtung dank eines leistungsfähigeren multimodalen Fusionsmechanismus. Zudem bietet es eine optimierte Inferenzgeschwindigkeit und einen höheren API-Durchsatz für mehr Effizienz.

Frage 2: Kann Kling V2.1 Videos aus mehreren Bildern generieren oder nur aus einem einzigen Bild?

Kling V2.1 ist vielseitig und kann aus einem einzelnen statischen Bild oder einer Reihe von Keyframe-Bildern flüssige, zusammenhängende Videosequenzen erzeugen und diese in eine dynamische visuelle Erzählung integrieren.

Frage 3: Wie verbessert die textbasierte Eingabeaufforderung den Videogenerierungsprozess?

Optionale Texteingabeaufforderungen ermöglichen es den Nutzern, die Dynamik, Ästhetik und den gesamten Erzählverlauf des Videos präzise zu steuern. Diese multimodale Steuerung fördert eine nuancierte Szenenentwicklung und stilistische Anpassungen, die sowohl im Bildmaterial als auch im bereitgestellten Textkontext verankert sind.

Frage 4: Ist Kling V2.1 für Anwendungen geeignet, die eine Echtzeit-Videogenerierung erfordern?

Ja, das Modell ist für einen ausgewogenen Kompromiss zwischen visueller Qualität und effizientem Rendering optimiert. Dank seiner wettbewerbsfähigen Inferenzgeschwindigkeiten und minimalen zeitlichen Artefakte eignet es sich daher hervorragend für Echtzeitanwendungen, interaktive Medien und die Stapelverarbeitung von Videos.

Frage 5: Welche Sprachen werden für Texteingabeaufforderungen in Kling V2.1 unterstützt?

Kling V2.1 bietet umfassende mehrsprachige Unterstützung. Es kann Eingabeaufforderungen in Englisch, Chinesisch und mehreren anderen Sprachen effektiv verstehen und verarbeiten und richtet sich somit an eine vielfältige und internationale Nutzerbasis.

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.

Kostenlos testen

Eine API
Mehr als 300 KI-Modelle

Sparen Sie 20 % der Kosten