Aus

Chat

deaktivieren

OmniHuman

Durch die Nutzung einer Diffusionstransformatorarchitektur und eines Trainings unter verschiedenen Bedingungen unterstützt es diverse Eingaben wie Videoreferenzen und produziert hochwertige, anpassbare Videos für Anwendungen in den Bereichen Marketing, Unterhaltung und Bildung.

Gratis-Tokens im Wert von 1 $ für neue Mitglieder

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/video/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'bytedance/omnihuman',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
      audio_url: 'https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                        import requests


def main():
    url = "https://api.ai.cc/v2/video/generations"
    payload = {
      "model": "bytedance/omnihuman",
      "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
      "audio_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()

Docs

Eine API für über 300 KI-Modelle

Sparen Sie 20 % der Kosten und erhalten Sie 1 $ gratis!

API-Schlüssel abrufen Modelle entdecken

OmniHuman

Produktdetails

OmniHuman ist ein von ByteDance entwickeltes, fortschrittliches KI-Modell zur Generierung personalisierte realistische Ganzkörpervideos Aus einem einzelnen Foto und einer Audiodatei (Sprache oder Gesang) erstellt das Modell Videos beliebiger Länge mit anpassbaren Seitenverhältnissen und Körperproportionen. Dabei wird nicht nur das Gesicht, sondern der gesamte Körper animiert, inklusive Gesten und Mimik, die präzise mit der Sprache synchronisiert sind.

✨ Technische Spezifikationen

Synchronisation: Eine hochentwickelte Lippensynchronisationstechnologie synchronisiert die gesprochene Sprache präzise mit Mundbewegungen und Gesichtsausdrücken.
Bewegungsdynamik: Der Diffusionstransformator sagt die Körperbewegung von Einzelbild zu Einzelbild voraus und verfeinert sie für eine flüssige, lebensechte Animation.
Training unter verschiedenen Bedingungen: Kombiniert Audio-, Pose- und Texteingaben für eine präzise Bewegungsvorhersage.
Benutzeroberfläche: Benutzerfreundliche Plattform mit Upload-, Generierungs- und Downloadfunktionen, die für professionelle Anwender und Gelegenheitsnutzer gleichermaßen geeignet ist.

📊 Leistungsbenchmarks

Erzielt eine äußerst realistische Videogenerierung mit natürlicher Lippensynchronisation, Gesichtsausdrücken und Ganzkörpergesten.
Übertrifft herkömmliche Deepfake-Technologien, die sich hauptsächlich auf Gesichter konzentrieren, indem der gesamte Körper animiert wird.
Flüssige Übergänge und präzise Sprachbewegungssynchronisation wurden durch umfangreiche interne Tests an Tausenden von Videobeispielen bestätigt.
Unterstützt die Erstellung längerer Videos ohne Verlust der Synchronisation oder der natürlichen Bewegungsdarstellung.

💰 API-Preise

0,126 $ /Sekunde

🚀 Hauptmerkmale

Anpassbare Videolänge und Seitenverhältnis: Ermöglicht das Erstellen von Videos beliebiger Länge und das Anpassen der Körperproportionen.
Hohe Wiedergabetreue und Natürlichkeit: Trainiert anhand von über 18.700 Stunden Videodaten, um nuancierte Gesten, Mimik und Bewegungsdynamik zu beherrschen.
Kompatibilität mit verschiedenen Stilen: Arbeitet mit Porträt-, Halb- oder Ganzkörperaufnahmen, einschließlich realistischer Fotos und stilisierter Posen.

💡 Anwendungsfälle

Erstellung realistischer digitaler Avatare für Marketing, Unterhaltung und soziale Medien.
Erstellung von Ganzkörper-Video-Avataren für virtuelle Veranstaltungen und Präsentationen.
Entwicklung KI-gesteuerter Charaktere für Spiele, Filme und virtuelle Produktionen.
Verbesserung des Fernunterrichts und der Online-Bildung durch animierte Dozenten.
Synchronisation von Synchronisation und Voiceover mit realistischen lippensynchronen Video-Avataren.

💻 Codebeispiel

↔️ Vergleich mit anderen Modellen

vs Meta Make-A-Video: OmniHuman nutzt multimodale Eingaben (Audio, Bild, Video) für präzise Ganzkörperanimationen und ermöglicht so detaillierte Gesten und Mimik. Meta Make-A-Video generiert kurze Videos anhand von Textvorgaben und konzentriert sich dabei hauptsächlich auf kreative Inhalte anstatt auf realistische menschliche Bewegungen.

vs Synthesia: OmniHuman produziert realistische Ganzkörpervideos mit natürlicher Lippensynchronisation und Körpersprache für diverse professionelle Anwendungen. Synthesia ist auf sprechende Kopf-Avatare mit Oberkörperanimation spezialisiert, optimiert für Geschäftspräsentationen und E-Learning mit eingeschränkterem Bewegungsspielraum.

⚠️ Ethische Überlegungen

OmniHuman bietet zwar bahnbrechende Funktionen, birgt aber auch Risiken im Zusammenhang mit dem Missbrauch von Deepfakes. Richtlinien für den verantwortungsvollen Umgang und Richtlinien zum Rechtemanagement werden dringend empfohlen. bei der Implementierung dieser Technologie.

🔗 API-Integration

Zugänglich über eine KI/ML-API. Eine ausführliche Dokumentation finden Sie hier: Offizielle OmniHuman API-DokumentationDie

❓ Häufig gestellte Fragen (FAQ)

Welche generative Architektur ermöglicht OmniHumans fotorealistische menschliche Synthese über verschiedene Attribute hinweg?

OmniHuman nutzt ein revolutionäres, kompositionelles generatives Framework, das das menschliche Erscheinungsbild in orthogonale Faktoren wie Gesichtsgeometrie, Hautstruktur, Haarbeschaffenheit, Körperform und Mimik zerlegt. Die Architektur zeichnet sich durch entkoppelte latente Repräsentationen aus, die eine unabhängige Steuerung demografischer Merkmale, des Alterungsprozesses, emotionaler Ausdrücke und stilistischer Elemente ermöglichen und gleichzeitig die biologische Plausibilität wahren. Fortschrittliche Normalisierungs- und Diffusionsprozesse gewährleisten fotorealistische Ausgabequalität, während ethische Richtlinien im Trainingsprozess die Generierung identifizierbarer Personen ohne deren ausdrückliche Einwilligung verhindern.

Wie gelingt es OmniHuman, eine beispiellose Vielfalt und Inklusion bei der Erzeugung synthetischer Menschen zu erreichen?

Das Modell integriert eine umfassende demografische und phänotypische Abdeckung durch kuratierte Trainingsdaten, die die globale menschliche Vielfalt hinsichtlich Ethnizität, Alter, Körpertyp, Fähigkeiten und kultureller Merkmale repräsentieren. Ausgefeilte Datenaugmentierungstechniken erzeugen kontinuierliche Variationen jenseits diskreter Kategorien, während Fairnessvorgaben im Trainingsziel Verzerrungen in der Repräsentation verhindern. Das System beinhaltet explizite Steuerelemente zur Anpassung der Repräsentationsanteile und gewährleistet eine gleichbleibende Generierungsqualität für alle demografischen Segmente. Dadurch eignet es sich besonders gut für die Erstellung inklusiver visueller Inhalte und die Vermeidung stereotypischer Darstellungen.

Welche dynamischen Generierungsfähigkeiten zeichnen OmniHuman für interaktive Anwendungen aus?

OmniHuman ermöglicht die Echtzeitgenerierung dynamischer menschlicher Repräsentationen mit steuerbaren Gesichtsausdrücken, Blickrichtung, Kopfhaltung und Körpersprache. Die Architektur erlaubt nahtlose Interpolationen zwischen verschiedenen Attributen, Alterungsverläufen und -rückgängen sowie Übergängen in den emotionalen Ausdruck bei gleichzeitiger Wahrung der Identitätskonsistenz. Fortschrittliche Mechanismen zur zeitlichen Kohärenz gewährleisten flüssige Bewegungs- und Ausdrucksänderungen und machen das Modell somit ideal für interaktive Anwendungen wie virtuelle Avatare, Chatbots und die Erstellung dynamischer Inhalte, bei denen sich menschliche Repräsentationen in Echtzeit an die Interaktionen der Nutzer anpassen müssen.

Wie gewährleistet das Modell eine ethische Erzeugung und beugt potenziellem Missbrauch vor?

OmniHuman integriert mehrere ethische Sicherheitsvorkehrungen, darunter biometrische Ähnlichkeitserkennung, die die Nachbildung existierender Personen verhindert, Inhaltsmoderationssysteme, die unangemessene Anfragen filtern, Mechanismen zur Förderung der Diversität, die die Erzeugung homogener Ergebnisse verhindern, und Transparenzfunktionen, die synthetische Inhalte eindeutig kennzeichnen. Das Training des Modells beinhaltet explizite Ziele für eine faire Repräsentation verschiedener demografischer Gruppen, und das Bereitstellungsframework umfasst Nutzungsüberwachung und Beschränkungen für sensible Anwendungen. Diese Maßnahmen gewährleisten eine verantwortungsvolle Nutzung und erhalten gleichzeitig den kreativen und praktischen Nutzen des Modells.

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.

Kostenlos testen

Eine API
Mehr als 300 KI-Modelle

Sparen Sie 20 % der Kosten