



const main = async () => {
const response = await fetch('https://api.ai.cc/v2/video/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'alibaba/wan2.2-14b-animate-replace',
prompt: 'Mona Lisa puts on glasses with her hands.',
video_url: 'https://storage.googleapis.com/falserverless/example_inputs/wan_animate_input_video.mp4',
image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
resolution: "720p",
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/video/generations"
payload = {
"model": "alibaba/wan2.2-14b-animate-replace",
"prompt": "Mona Lisa puts on glasses with her hands.",
"video_url": "https://storage.googleapis.com/falserverless/example_inputs/wan_animate_input_video.mp4",
"image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
"resolution": "720p",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

Produktdetails
Der WAN 2.2 14B Animate Replace Das Modell stellt einen Durchbruch dar in KI-Videogenerierungspeziell entwickelt für präzise Zeichenersetzung Innerhalb bestehenden Videomaterials. Dieses fortschrittliche Modell zeichnet sich dadurch aus, dass es die wesentlichen Elemente des Originalvideos – Szene, Hintergrund, Kamerawinkel und präzises Timing – beibehält und gleichzeitig die ursprüngliche Person nahtlos durch eine neue Figur ersetzt, die auf einem einzigen Referenzfoto basiert. Benutzer können flexibel wählen, ob nur das Gesicht oder der gesamte Körper ausgetauscht werden soll, wobei die ursprüngliche Körperhaltung erhalten bleibt und perfekt synchronisierte Lippenbewegungen gewährleistet sind.
Technische Spezifikationen
- ✨ Modellgröße: 14 Milliarden Parameter bilden das Rückgrat der Stromerzeugung.
- 🧠 Architektur: Ein robuster Diffusionstransformator-Videogenerator mit einem Design, das auf der Zusammenarbeit von Experten basiert und so für erhöhte Kapazität und effiziente Rechenleistung sorgt.
- 🌌 Verarbeitung des latenten Raums: Verwendet einen kundenspezifischen 3D-kausalen Variational Autoencoder (VAE) (~127M Parameter) für die raumzeitliche latente Videokompression.
- 🕰️ Kausalität: Die zeitliche Kausalität gewährleistet, dass zukünftige Frames vergangene Frames nicht beeinflussen, was zu einer stabilen und kohärenten Bewegungserzeugung führt.
- 👁️ Aufmerksamkeitsmechanismus: Gepoolte räumlich-zeitliche Selbstaufmerksamkeit über Videobilder und Pixel hinweg.
- ✍️ Konditionierung: Querverweis auf Textmerkmale über einen T5-Encoder für optionale textgesteuerte Steuerung.
- 📥 Eingabe: Erfordert ein einzelnes Referenzbild (zur Identifizierung) und ein Referenzvideo (zur Bewegungserkennung).
- 📤 Ausgabe: Erzeugt ein Video mit der ersetzten Figur in 720p-Auflösung mit 24 Bildern pro Sekunde.
Leistungsbenchmarks
- 🖼️ Videoqualität: Bietet eine detailgetreue Charakterersetzung mit bemerkenswert flüssigen Bewegungen und natürlichen Gesichtsausdrücken.
- 📏 Auflösung & Bildrate: Unterstützt durchgehend eine Auflösung von 720p bei 24 Bildern pro Sekunde.
- ⚡ Latenz: Die lokale Generierungsgeschwindigkeit ist GPU-abhängig; H100-GPUs bieten im Vergleich zu GPUs für Endverbraucher eine deutlich schnellere Inferenz.
- 📉 Ressourceneffizienz: Die innovative Architektur, die auf der Mischung von Experten basiert, steigert die Modellkapazität, ohne dass die Rechenkosten proportional ansteigen.
Hauptmerkmale
- 👤 Charakterersetzung: Tauschen Sie die ursprüngliche Person in einem Video mühelos gegen eine neue aus, indem Sie nur ein einziges Referenzbild verwenden.
- 🎭 Vollständiger oder teilweiser Ersatz: Wählen Sie den gewünschten Grad der Ersetzung – von nur dem Gesicht bis hin zu einer kompletten Ganzkörperersetzung.
- 🕺 Erhaltung von Pose und Ausdruck: Bewahrt die Integrität der ursprünglichen Körperhaltungen, Kopfbewegungen und Lippensynchronisation für eine unglaublich natürliche Animation.
- 🏞️ Szenenkonsistenz: Gewährleistet, dass Hintergrund, Kamerawinkel, Beleuchtung und Timing perfekt erhalten bleiben.
- 🌟 Hoher Realismus: Nutzt skelettbasierte Bewegungsverfolgung und präzise Gesichtscodierung, um flüssige, hochrealistische Animationen zu erzeugen.
- 💻 Lokale Bereitstellung: Kann mit geeigneten Hardwarekonfigurationen lokal ausgeführt werden und unterstützt die Erzeugung hochwertiger Ausgaben.
API-Preise
- 480p: 0,042 USD
- 580p: 0,063 USD
- 720p: 0,084 USD
Anwendungsfälle
- 📈 Marketing & Werbung: Dynamischer Video-Charakteraustausch für ansprechende Marketing- und Werbeinhalte.
- ✨ Virtuelle Influencer: Erstellung virtueller Influencer und Avatare mit realistischer, in Echtzeit nachahmender Mimik.
- 🎬 Film- und Videoproduktion: Optimieren Sie die Vorvisualisierung und Nachdrehs von Filmen und Videos, ohne dass neue Dreharbeiten erforderlich sind.
- 🎨 Personalisierte Inhalte: Generieren Sie personalisierte, nutzergenerierte Inhalte mit individuell gestalteten Charakteren.
- 📱 Social-Media-Animation: Animierte Fotos für fesselnde Social-Media-Posts und Unterhaltung.
- 📚 Bildungsinhalte: Gestalten Sie Lehr- und Schulungsvideos mit individuell angepassten Charakteren.
- 🔒 Datenschutz: Verbessern Sie die Privatsphäre, indem Sie Gesichter in bestehendem Videomaterial für die Erstellung sensibler Inhalte ersetzen.
- 🎭 Digitale Effekte: Unterstützung bei der Erstellung digitaler Effekte und Deepfake-Produkte unter Berücksichtigung ethischer Kontrollmechanismen.
Codebeispiel
data-name ="alibaba.create-video-to-video-generation" data-model ="alibaba/wan2.2-14b-animate-replace" > Vergleich mit anderen Modellen
vs. Stabile Diffusion (Video): WAN 2.2 Animate Replace Der Fokus liegt primär auf dem vollständigen Charakteraustausch in Videos und ermöglicht so eine umfassende Übertragung von Ausdruck und Bewegung. Diese Funktionalität übertrifft die Standarderweiterungen von Stable Diffusion, die typischerweise auf die Generierung kurzer Clips beschränkt sind und oft eine weniger konsistente zeitliche Kontrolle aufweisen. Darüber hinaus kann Wan 2.2 längere Videos (bis zu mehreren Minuten) verarbeiten – ein deutlicher Vorteil gegenüber den üblicherweise kürzeren Ausgaben von Stable-Diffusion-Videomodellen.
vs Bild Video (Google): Imagen Video ist hauptsächlich darauf ausgerichtet, Videos aus Textvorgaben mit hoher visueller Qualität zu generieren, bietet aber von Natur aus keine spezifischen Funktionen zum Ersetzen von Zeichen. WAN 2.2 Animate Replace's Das Alleinstellungsmerkmal liegt in der Vereinheitlichung von Animations- und Ersetzungsmodi, wodurch eine detaillierte Kontrolle über Mimik und Bewegung ermöglicht und somit speziell auf charakterzentrierte Arbeitsabläufe zugeschnitten wird.
vs Meta Make-A-Video: Während Make-A-Video kurze Videoclips aus Text generiert, fehlt ihm die gezielte Zeichenersetzung, WAN 2.2 Animate Replace Wan 2.2 ist spezialisiert auf Charakterersetzung mit präziser Synchronisierung von Pose und Lippenbewegungen in bestehenden Videos, was es praktischer für Postproduktions- und Videobearbeitungs-Workflows macht, im Gegensatz zum Fokus von Make-A-Video auf die allgemeine Szenenerstellung.
API-Integration
WAN 2.2 Animate Replace ist über die KI/ML-API zugänglich. Eine umfassende Dokumentation ist verfügbar. Hier verfügbarDie
Häufig gestellte Fragen (FAQ)
Was ist WAN 2.2 14B Animate Replace?
WAN 2.2 14B Animate Replace ist ein fortschrittliches KI-Videogenerierungsmodell, das entwickelt wurde, um Charaktere in bestehenden Videos präzise zu ersetzen. Es behält intelligent die Szene, den Hintergrund, die Kameraperspektiven und das Timing des Originalvideos bei und integriert gleichzeitig einen neuen Charakter anhand eines Referenzbildes.
Kann ich nur das Gesicht oder den gesamten Körper austauschen?
Ja, das Modell bietet Flexibilität. Sie können entweder nur das Gesicht der Originalfigur ersetzen oder den gesamten Körper austauschen, wobei in beiden Fällen die ursprüngliche Körperhaltung und die Lippensynchronisation für eine natürliche Animation erhalten bleiben.
Wie gewährleistet WAN 2.2 die Videokonsistenz nach dem Austausch?
Das Modell ist so konzipiert, dass die Szenenkonsistenz erhalten bleibt, indem der ursprüngliche Hintergrund, die Kamerawinkel, die Lichtverhältnisse und das Timing vollständig beibehalten werden. Es konzentriert sich ausschließlich auf den Austausch der Figur, während alle anderen Elemente des Videos erhalten bleiben.
Was sind die Hauptanwendungsgebiete dieser Zeichenersetzungstechnologie?
Zu den wichtigsten Anwendungsgebieten gehören der Austausch von Videofiguren in der Werbung, die Erstellung virtueller Influencer und Avatare, die Filmvorvisualisierung, personalisierte nutzergenerierte Inhalte, die Anpassung von Lehrvideos und die Erstellung datenschutzfreundlicher Inhalte.
Ist die lokale Bereitstellung eine Option für WAN 2.2 Animate Replace?
Ja, Wan 2.2 14B Animate Replace kann lokal bereitgestellt und ausgeführt werden, sofern Sie über die entsprechende Hardwarekonfiguration verfügen. Dies ermöglicht die Generierung hochwertiger Ausgaben direkt auf Ihrer eigenen Infrastruktur.
KI-Spielplatz



Einloggen