Aus

Chat

deaktivieren

VibeVoice 1.5B

Das Modell ermöglicht eine präzise Steuerung von Tonfall, Sprechtempo, Emotionen und Sprache und ist somit die ideale Wahl für Unternehmen, die hochwertige und skalierbare Sprachgenerierungslösungen anstreben.

Gratis-Tokens im Wert von 1 $ für neue Mitglieder

Text to Speech

Javascript

Python

                                        const fs = require('fs');
const path = require('path');

const axios = require('axios').default;
const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  try {
    const response = await api.post('/tts', {
      model: 'microsoft/vibevoice-1.5b',
      script: 'Speaker 0: Hello there! Speaker 1: Hi, how are you?',
      speakers: [
        { preset: 'Frank [EN]' }
      ]
    });

    const responseData = response.data;
    const audioUrl = responseData.audio.url;
    const fileName = responseData.audio.file_name;

    const audioResponse = await api.get(audioUrl, { responseType: 'stream' });

    const dist = path.resolve(__dirname, fileName);
    const writeStream = fs.createWriteStream(dist);

    audioResponse.data.pipe(writeStream);

    writeStream.on('close', () => {
      console.log('Audio saved to:', dist);
      console.log(`Duration: ${responseData.duration} seconds`);
      console.log(`Sample rate: ${responseData.sample_rate} Hz`);
    });

  } catch (error) {
    console.error('Error:', error.message);
  }
};

main();

                                        import os
import requests


def main():
    url = "https://api.ai.cc/v1/tts"
    headers = {
        "Authorization": "Bearer ",
    }
    payload = {
        "model": "microsoft/vibevoice-1.5b",
        "script": "Speaker 0: Hello there! Speaker 1: Hi, how are you?",
        "speakers": [
            { "preset": "Frank [EN]" }
        ]
    }

    try:
        response = requests.post(url, headers=headers, json=payload)
        response.raise_for_status()  # Raise an exception for bad status codes

        response_data = response.json()
        audio_url = response_data["audio"]["url"]
        file_name = response_data["audio"]["file_name"]

        audio_response = requests.get(audio_url, stream=True)
        audio_response.raise_for_status()

        dist = os.path.join(os.path.dirname(__file__), file_name)

        with open(dist, "wb") as write_stream:
            for chunk in audio_response.iter_content(chunk_size=8192):
                if chunk:
                    write_stream.write(chunk)

        print("Audio saved to:", dist)
        print(f"Duration: {response_data['duration']} seconds")
        print(f"Sample rate: {response_data['sample_rate']} Hz")

    except requests.exceptions.RequestException as e:
        print(f"Error making request: {e}")
    except Exception as e:
        print(f"Error: {e}")


main()

Docs

Über 300 KI-Modelle für OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten und erhalten Sie 1 $ gratis!

API-Schlüssel abrufen Modelle entdecken

VibeVoice 1.5B

Produktdetails

VibeVoice 1.5B gilt als bahnbrechend KI-Sprachsynthesemodell, sorgfältig entwickelt, um zu liefern qualitativ hochwertige, natürlich klingende SpracheEs zeichnet sich durch außergewöhnliche Eigenschaften aus. ausdrucksstarke TonmodulationDiese hochskalierbare und vielseitige Lösung passt sich nahtlos an unterschiedlichste Sprachen und Kontexte an. Sie unterstützt Content-Ersteller, Entwickler und Unternehmen durch fortschrittliche Sprachgenerierungsfunktionen für eine breite Palette von Anwendungen, darunter virtuelle Assistenten, Hörbücher, Spiele und Multimedia-Produktionen.

✨ Wichtigste Funktionen & Vielseitige Eingabemöglichkeiten

VibeVoice 1.5B verarbeitet verschiedene Eingabetypen meisterhaft und erzeugt so lebensechte Sprache mit nuancierter Prosodie, wodurch die Anpassungsfähigkeit an jedes Projekt gewährleistet wird. Es unterstützt:

✓ Klartext: Für einfache und direkte Spracherzeugung.
✓ SSML (Speech Synthesis Markup Language): Ermöglicht die präzise Steuerung von Sprachattributen wie Pausen, Aussprache und Intonation.
✓ Emotionale/Stilistische Tags: Um dem Ergebnis bestimmte Emotionen und einen unverwechselbaren Sprechstil zu verleihen.

Dieses Modell kommt damit gut zurecht Konversationsdialog, Erzählung und Charakterstimmenund erzeugt so eine dynamische Intonation, dass jede Äußerung authentisch menschlich klingt.

🚀 Unübertroffene Leistung und Ausgabequalität

⏳ Latenz: Optimiert für Sprachgenerierung in nahezu EchtzeitVibeVoice 1.5B eignet sich perfekt für interaktive Anwendungen wie Chatbots und Live-Übertragungen und gewährleistet eine sofortige und flüssige Kommunikation.
🎧 Audioqualität: Es produziert konstant Audioqualität in StudioqualitätEs zeichnet sich durch klare Artikulation, natürliche Intonation und nahtlose Übergänge aus. Dadurch eignet es sich ideal für professionelle Anwendungen und Endverbraucher, die höchste Audioqualität erfordern.
💬 Ausdrucksfähigkeit: Das Modell ermöglicht eine detaillierte Kontrolle über emotionale Tonlage, Betonung, Erzähltempo und AkzentanpassungenDiese Flexibilität ermöglicht es den Nutzern, die Sprachausgabe perfekt auf spezifische Erzählanforderungen und Markenbedürfnisse abzustimmen.

🧠 Fortschrittliche technische Architektur

VibeVoice 1.5B basiert auf einer hochentwickelten Transformer-basiertes neuronales Text-zu-Sprache (TTS)-BackboneEs integriert fortschrittliche Prosodie-Modellierungsmodule und nutzt mehrschichtige Selbstaufmerksamkeitsmechanismen sowie speziell für die Extraktion zeitlicher akustischer Merkmale optimierte Faltungsschichten. Die außergewöhnliche Leistung des Modells ist das Ergebnis eines umfangreichen Trainings. riesiges Korpus mehrsprachiger Sprachaufnahmen und reichhaltig annotierte Datensätze emotionaler Sprache, die eine robuste Generalisierung über ein breites Spektrum von Sprechern und Stilen hinweg gewährleisten.

💲 API-Preise

💰 0,042 US-Dollar pro generierter Minute

⭐ Kernfunktionen auf einen Blick

📝 Multimodale Eingabeverarbeitung: Akzeptiert diverse Eingabeformate, darunter Textinhalte, die mit eingebetteten emotionalen Hinweisen und präzisen Anweisungen auf Phonemebene angereichert sind, und bietet so eine beispiellose Kontrolle über die synthetische Stimme.
🎧 Ausdrucksstarke Sprachanpassung: Ermöglicht die detaillierte Anpassung wichtiger Sprachattribute wie Tonhöhe, Sprechgeschwindigkeit, emotionaler Untertöne und subtiler Variationen der Sprecheridentität und sorgt so für eine perfekte Abstimmung der Stimme auf Ihre kreative Vision.
🌐 Mehrsprachige und mehrdialektische Unterstützung: Liefert durchweg natürliche Sprachausgabe in zahlreichen Sprachen und regionalen Dialekten und gewährleistet dabei eine hohe Sprachqualität für eine wahrhaft globale Reichweite.

💡 Vielfältige Anwendungsmöglichkeiten

👤 Virtuelle Assistenten & Chatbots: Ermöglichen Sie ansprechende, menschenähnliche Interaktionen und verbessern Sie so den Kundenservice und die digitale Begleitung.
📚 Hörbuch- und Podcast-Erzählung: Erzeugen Sie dynamische Sprachaufnahmen mit deutlicher Charakterdifferenzierung und emotionaler Ausdruckskraft, die Geschichten lebendig werden lassen.
🎮 Gaming & Animation: Erschaffe realistische Charakterstimmen mit umfassender stilistischer Flexibilität und trage so zu einem tiefen Eintauchen in die Geschichte und das Spielerlebnis bei.
📖 Hilfsmittel zur Barrierefreiheit: Hochwertige Bildschirmleserstimmen mit anpassbarer Ausdruckskraft bieten und so das Benutzererlebnis für alle deutlich verbessern.
🌎 Inhaltslokalisierung: Ermöglichen Sie eine schnelle, natürliche Sprachsynchronisation in mehreren Sprachen und unterstützen Sie so mühelos die globale Inhaltsverteilung und eine breitere Zielgruppenansprache.

📝 Codebeispiel

// Beispiel für die Verwendung der VibeVoice 1.5B API
const textToSynthesize = "Hallo, hier spricht VibeVoice 1.5B!";
const voiceParams = {
Modell: "microsoft/vibevoice-1.5b",
Sprache: "en-US",
Gefühl: "freudig"
};
VibeVoice.synthesize(textToSynthesize, voiceParams)
.then(audioUrl => console.log("Generiertes Audio:", audioUrl))
.catch(error => console.error("Fehler beim Synthetisieren der Stimme:", error));

📈 VibeVoice 1,5 Mrd. vs. Wettbewerber

vs. Eleven Music: Während Eleven Music sich auf KI-gestützte Musikgenerierung mit komplexen Kompositionsfunktionen spezialisiert hat, zeichnet sich VibeVoice 1.5B durch seine herausragenden Fähigkeiten in folgenden Bereichen aus: natürliche und ausdrucksstarke Stimmsynthesespeziell für gesprochene Audioinhalte.
vs. Suno AI: Im Vergleich zu Suno AI, das sich auf Funktionen zur Musikgenerierung konzentriert, liegt die Kernstärke von VibeVoice 1.5B in seiner überragende Sprachqualität, unvergleichliche Prosodiekontrolle, Und mehrsprachige Sprachausgabe, sorgfältig konzipiert für Gesprächskontexte und nicht für musikalische Inhalte.
vs. Teilen: Udio zielt typischerweise auf einfachere Audioproduktion mit begrenzter Sprachsynthese ab. VibeVoice hingegen bietet deutlich mehr Möglichkeiten. höhere Wiedergabetreue, detaillierte emotionale Variationund eine breitere Anwendungsunterstützung, die auf die Anforderungen professioneller Sprachgenerierung zugeschnitten ist.
vs. MusicAI Sandbox: MusicAI Sandbox ist primär auf kreatives Musikexperimentieren ausgerichtet. Im krassen Gegensatz dazu priorisiert VibeVoice 1.5B … realistische Sprachausgabe, bietet fortschrittliche Feinabstimmungsmöglichkeiten für eine breite Palette von Stimmcharakteristika und -stilen.
vs. AIMusic.fm: AIMusic.fm automatisiert weitgehend die Musikproduktion mit eingeschränkten Anpassungsmöglichkeiten. VibeVoice bietet detaillierte Kontrolle über Sprachparameter und umfassende Stilflexibilität, speziell zugeschnitten auf sprachzentrierte Projekte.

☝ Häufig gestellte Fragen (FAQ)

1. Welche neuronale Vocoder-Architektur ermöglicht die ausdrucksstarke Sprachsynthese von VibeVoice 1.5B?

VibeVoice 1.5B verwendet ein effiziente strömungsangepasste DiffusionsarchitekturDie Architektur wurde mit größter Sorgfalt auf emotionale Ausdruckskraft und Stimmqualität im Umfang von 1,5 Milliarden Parametern optimiert. Sie zeichnet sich durch hierarchische Wellenformgenerierung aus, die sowohl makroprosodische Muster als auch mikrointonative Details erfasst, und kombiniert dies mit einer stiladaptiven Normalisierung, um die Sprecheridentität in verschiedenen emotionalen Zuständen zu erhalten.

2. Wie erreicht das Modell emotionale Ausdruckskraft innerhalb seines begrenzten Parameterbudgets?

Das Modell implementiert eine hocheffiziente Modellierung der emotionalen Prosodie durch destillierte EmotionseinbettungenDiese erfassen die akustischen Korrelate verschiedener emotionaler Zustände ohne umfangreichen Parameteraufwand. In Kombination mit gemeinsam genutzten Extraktoren für emotionale Merkmale und optimierten Tonhöhen-/Timing-Netzwerken ermöglicht dies ein beeindruckendes emotionales Spektrum.

3. Welche Möglichkeiten zur Sprachanpassung bietet VibeVoice 1.5B?

VibeVoice 1.5B bietet effiziente Sprachanpassung durch Lernen mit wenigen Beispielen Ausgehend von wenigen Audiobeispielen und durch parametereffiziente Feinabstimmung können Nutzer Stimmattribute wie Tonhöhe, Sprechgeschwindigkeit und emotionale Intensität anpassen. Zudem unterstützt es Stiltransfer von Referenzaudio und grundlegende Akzentanpassung bei gleichbleibender Recheneffizienz.

4. Wie gelingt es VibeVoice 1.5B, Qualität und Effizienz in verschiedenen Einsatzszenarien in Einklang zu bringen?

Das Modell verwendet intelligente RessourcenzuweisungDie Rechenleistung wird auf die wahrnehmungsrelevantesten Aspekte der Sprachgenerierung konzentriert. Dazu gehören adaptive Qualitätsanpassung, effiziente Aufmerksamkeitsmechanismen und optimierte Audioverarbeitungspipelines. Dieser ausgewogene Ansatz gewährleistet eine hohe Leistungsfähigkeit in unterschiedlichsten Einsatzumgebungen, von Cloud-Instanzen bis hin zu Edge-Geräten.

5. Welche praktischen Anwendungen profitieren am meisten vom effizienten Design von VibeVoice 1.5B?

Seine Effizienz macht es besonders geeignet für Anwendungen wie mobile Sprachassistenten, eingebettete Systeme mit begrenzten Rechenressourcen, mandantenfähige Cloud-Dienste Erfordert kostengünstige Spracherzeugung, interaktive Echtzeitanwendungen mit strengen Latenzanforderungen und Bildungsplattformen für viele gleichzeitige Nutzer.

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.

Kostenlos testen

Mehr als 300 KI-Modelle für
OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten