Dans

Dehors

Chat

désactiver

VibeVoice 1.5B

Ce modèle permet un contrôle précis du ton, du rythme, des émotions et du langage, ce qui en fait un choix idéal pour les entreprises recherchant des solutions de génération vocale évolutives et de haute qualité.

Jetons gratuits de 1 $ pour les nouveaux membres

Text to Speech

Javascript

Python

                                        const fs = require('fs');
const path = require('path');

const axios = require('axios').default;
const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  try {
    const response = await api.post('/tts', {
      model: 'microsoft/vibevoice-1.5b',
      script: 'Speaker 0: Hello there! Speaker 1: Hi, how are you?',
      speakers: [
        { preset: 'Frank [EN]' }
      ]
    });

    const responseData = response.data;
    const audioUrl = responseData.audio.url;
    const fileName = responseData.audio.file_name;

    const audioResponse = await api.get(audioUrl, { responseType: 'stream' });

    const dist = path.resolve(__dirname, fileName);
    const writeStream = fs.createWriteStream(dist);

    audioResponse.data.pipe(writeStream);

    writeStream.on('close', () => {
      console.log('Audio saved to:', dist);
      console.log(`Duration: ${responseData.duration} seconds`);
      console.log(`Sample rate: ${responseData.sample_rate} Hz`);
    });

  } catch (error) {
    console.error('Error:', error.message);
  }
};

main();

                                        import os
import requests


def main():
    url = "https://api.ai.cc/v1/tts"
    headers = {
        "Authorization": "Bearer ",
    }
    payload = {
        "model": "microsoft/vibevoice-1.5b",
        "script": "Speaker 0: Hello there! Speaker 1: Hi, how are you?",
        "speakers": [
            { "preset": "Frank [EN]" }
        ]
    }

    try:
        response = requests.post(url, headers=headers, json=payload)
        response.raise_for_status()  # Raise an exception for bad status codes

        response_data = response.json()
        audio_url = response_data["audio"]["url"]
        file_name = response_data["audio"]["file_name"]

        audio_response = requests.get(audio_url, stream=True)
        audio_response.raise_for_status()

        dist = os.path.join(os.path.dirname(__file__), file_name)

        with open(dist, "wb") as write_stream:
            for chunk in audio_response.iter_content(chunk_size=8192):
                if chunk:
                    write_stream.write(chunk)

        print("Audio saved to:", dist)
        print(f"Duration: {response_data['duration']} seconds")
        print(f"Sample rate: {response_data['sample_rate']} Hz")

    except requests.exceptions.RequestException as e:
        print(f"Error making request: {e}")
    except Exception as e:
        print(f"Error: {e}")


main()

Docs

Plus de 300 modèles d'IA pour OpenClaw et agents IA

Économisez 20 % sur les coûts et recevez des jetons gratuits d'une valeur de 1 $.

Obtenir la clé API Explorer les modèles

VibeVoice 1.5B

Détails du produit

VibeVoice 1.5B constitue une avancée majeure Modèle de synthèse vocale par IA, méticuleusement conçus pour offrir parole de haute qualité et au son naturelElle se targue d'être exceptionnelle modulation expressive du tonCette solution hautement évolutive et polyvalente s'adapte parfaitement à diverses langues et contextes. Elle offre aux créateurs de contenu, aux développeurs et aux entreprises des fonctionnalités avancées de génération vocale pour une large gamme d'applications, notamment les assistants virtuels, les livres audio, les jeux et la production multimédia.

✨ Fonctionnalités clés et polyvalence des entrées

VibeVoice 1.5B traite avec brio différents types d'entrées pour produire une parole naturelle à la prosodie nuancée, garantissant ainsi son adaptabilité à tous les projets. Il prend en charge :

✓ Texte brut : Pour une génération de parole simple et directe.
✓ SSML (Speech Synthesis Markup Language) : Permettant un contrôle précis des attributs de la parole tels que les pauses, la prononciation et l'intonation.
✓ Étiquettes émotionnelles/de style : Insuffler des émotions spécifiques et des styles d'expression distincts dans le discours final.

Ce modèle gère avec aisance dialogues conversationnels, narration et voix des personnages, en diffusant une intonation dynamique qui donne à chaque phrase une sonorité authentiquement humaine.

🚀 Performances et qualité de sortie inégalées

⏳ Latence : Optimisé pour génération vocale quasi en temps réelVibeVoice 1.5B est parfaitement adapté aux applications interactives telles que les chatbots et les diffusions en direct, garantissant une communication immédiate et fluide.
🎧 Qualité audio : Il produit de manière constante audio de qualité studioCaractérisée par une articulation claire, une intonation naturelle et des transitions fluides, elle est idéale pour les applications professionnelles et grand public exigeant une fidélité audio supérieure.
💬 Expressivité : Le modèle offre un contrôle précis sur adaptations du ton émotionnel, de l'emphase, du rythme et de l'accentCette flexibilité permet aux utilisateurs d'adapter parfaitement la sortie vocale aux exigences spécifiques de narration et aux besoins de l'image de marque.

🧠 Architecture technique avancée

VibeVoice 1.5B repose sur une architecture sophistiquée architecture de synthèse vocale (TTS) neuronale basée sur les transformateursIl intègre des modules avancés de modélisation de la prosodie, tirant parti de mécanismes d'auto-attention multicouches et de couches convolutionnelles spécifiquement optimisées pour l'extraction de caractéristiques acoustiques temporelles. Les performances exceptionnelles du modèle sont le fruit d'un entraînement intensif sur un vaste corpus d'enregistrements vocaux multilingues et des ensembles de données de parole émotionnelle richement annotés, garantissant une généralisation robuste à un large éventail de locuteurs et de styles.

💲 Tarification de l'API

💰 0,042 $ par minute générée

⭐ Aperçu des principales fonctionnalités

📝 Traitement des entrées multimodales : Accepte divers formats d'entrée, y compris un contenu textuel enrichi d'indices émotionnels intégrés et d'instructions précises au niveau des phonèmes, offrant un contrôle inégalé sur la voix synthétique.
🎧 Personnalisation vocale expressive : Permet un réglage précis des attributs vocaux essentiels tels que la hauteur, le débit de parole, les nuances émotionnelles et les variations subtiles de l'identité du locuteur, permettant un alignement parfait de la voix avec votre vision créative.
🌐 Prise en charge multilingue et multidialectique : Offre une restitution vocale naturelle et homogène dans de nombreuses langues et dialectes régionaux, tout en maintenant une qualité vocale haute fidélité pour une portée véritablement mondiale.

💡 Applications diverses

👤 Assistants virtuels et chatbots : Faciliter des interactions engageantes et plus humaines, en améliorant le support client et l'accompagnement numérique.
📚 Narration de livres audio et de podcasts : Générez des performances vocales dynamiques avec une différenciation et une émotion distinctes des personnages, donnant vie aux récits de manière saisissante.
🎮 Jeux vidéo et animation : Créez des voix de personnages réalistes avec une grande flexibilité stylistique, contribuant à des expériences narratives et de jeu profondément immersives.
📖 Outils d'accessibilité : Fournir des voix de lecture d'écran de haute qualité avec une expressivité personnalisable, améliorant considérablement l'expérience utilisateur pour tous.
🌎 Localisation du contenu : Permet un doublage vocal rapide et naturel dans plusieurs langues, facilitant la distribution mondiale de contenu et l'accès à un public plus large.

📝 Exemple de code

// Exemple d'utilisation de l'API VibeVoice 1.5B
const textToSynthesize = "Bonjour, ici VibeVoice 1.5B !";
const voiceParams = {
modèle : "microsoft/vibevoice-1.5b",
langue : « en-US »,
émotion : « joyeux »
};
VibeVoice.synthesize(textToSynthesize, voiceParams)
.then(audioUrl => console.log("Audio généré :", audioUrl))
.catch(error => console.error("Erreur lors de la synthèse vocale :", error));

📈 VibeVoice 1,5 milliard vs. la concurrence

contre Eleven Musique : Alors qu'Eleven Music se spécialise dans la génération musicale pilotée par l'IA avec des capacités de composition complexes, VibeVoice 1.5B se distingue par son excellence dans synthèse vocale naturelle et expressive, plus particulièrement pour l'audio parlé.
contre Suno IA : Contrairement à Suno AI, qui se concentre sur les fonctionnalités de génération musicale, la principale force de VibeVoice 1.5B réside dans… Qualité vocale supérieure, contrôle prosodique inégalé, et prestation vocale multilingue, méticuleusement conçus pour les contextes conversationnels plutôt que pour le contenu musical.
vs. Partager : Udio cible généralement les productions audio simples avec une synthèse vocale limitée. VibeVoice, en revanche, offre des fonctionnalités nettement supérieures. fidélité supérieure, variation émotionnelle détailléeet une prise en charge plus étendue des applications, adaptée aux exigences professionnelles en matière de génération vocale.
vs. Bac à sable MusicAI : MusicAI Sandbox est principalement orienté vers l'expérimentation musicale créative. À l'inverse, VibeVoice 1.5B privilégie Sortie vocale réaliste, offrant des options de réglage fin avancées pour une gamme diversifiée de caractéristiques et de styles vocaux.
contre AIMusic.fm : AIMusic.fm automatise en grande partie la création musicale avec des options de personnalisation limitées. VibeVoice offre contrôle précis des paramètres vocaux et une grande adaptabilité stylistique, spécialement conçue pour les projets axés sur la parole.

☝ Foire aux questions (FAQ)

1. Quelle architecture de vocodeur neuronal permet la synthèse vocale expressive de VibeVoice 1.5B ?

VibeVoice 1.5B utilise un architecture de diffusion efficace adaptée au fluxOptimisée avec une précision méticuleuse pour l'expressivité émotionnelle et la qualité vocale à l'échelle de ses 1,5 milliard de paramètres, cette architecture repose sur une génération de formes d'onde hiérarchique qui capture à la fois les schémas macro-prosodiques et les détails de micro-intonation, associée à une normalisation adaptative au style afin de préserver l'identité du locuteur dans divers états émotionnels.

2. Comment le modèle parvient-il à une expressivité émotionnelle dans le cadre de son budget de paramètres restreint ?

Le modèle met en œuvre une modélisation prosodique émotionnelle très efficace grâce à distiller les émotions intégréesCes techniques permettent de capturer les corrélats acoustiques de différents états émotionnels sans nécessiter une surcharge paramétrique importante. Associées à des extracteurs de caractéristiques émotionnelles partagés et à des réseaux optimisés pour la hauteur et le rythme, elles offrent une gamme émotionnelle impressionnante.

3. Quelles sont les capacités de personnalisation vocale offertes par VibeVoice 1.5B ?

VibeVoice 1.5B assure une adaptation vocale efficace grâce à apprentissage à partir de quelques exemples Grâce à un nombre limité d'échantillons audio et à un réglage fin optimisé des paramètres, les utilisateurs peuvent ajuster les attributs vocaux tels que la hauteur, le débit et l'intensité émotionnelle. Le logiciel prend également en charge le transfert de style à partir d'un fichier audio de référence et l'adaptation basique de l'accent, tout en préservant l'efficacité du calcul.

4. Comment VibeVoice 1.5B équilibre-t-il qualité et efficacité pour différents scénarios de déploiement ?

Le modèle utilise allocation intelligente des ressourcesCette approche consiste à allouer les ressources de calcul aux aspects les plus importants de la génération de la parole sur le plan perceptif. Cela inclut une mise à l'échelle adaptative de la qualité, des mécanismes d'attention efficaces et des pipelines de traitement audio optimisés. Cet équilibre garantit des performances optimales dans divers environnements de déploiement, des instances cloud aux périphériques de périphérie.

5. Quelles applications pratiques bénéficient le plus de la conception efficace du VibeVoice 1.5B ?

Son efficacité la rend particulièrement adaptée à des applications telles que assistants vocaux mobiles, systèmes embarqués aux ressources de calcul limitées, services cloud mutualisés nécessitant une génération vocale économique, des applications interactives en temps réel avec des exigences strictes en matière de latence et des plateformes éducatives servant de nombreux utilisateurs simultanés.

Terrain de jeu de l'IA

Testez tous les modèles d'API dans l'environnement de test avant de les intégrer. Nous proposons plus de 300 modèles à intégrer à votre application.

Essai gratuit

Plus de 300 modèles d'IA pour
OpenClaw et agents IA

Économisez 20 % sur vos coûts

Jetons gratuits de 1 $ pour les nouveaux membres