



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
try {
const response = await api.post('/tts', {
model: 'microsoft/vibevoice-7b',
script: 'Speaker 0: Hello there! Speaker 1: Hi, how are you?',
speakers: [
{ preset: 'Frank [EN]' }
]
});
const responseData = response.data;
const audioUrl = responseData.audio.url;
const fileName = responseData.audio.file_name;
const audioResponse = await api.get(audioUrl, { responseType: 'stream' });
const dist = path.resolve(__dirname, fileName);
const writeStream = fs.createWriteStream(dist);
audioResponse.data.pipe(writeStream);
writeStream.on('close', () => {
console.log('Audio saved to:', dist);
console.log(`Duration: ${responseData.duration} seconds`);
console.log(`Sample rate: ${responseData.sample_rate} Hz`);
});
} catch (error) {
console.error('Error:', error.message);
}
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "microsoft/vibevoice-7b",
"script": "Speaker 0: Hello there! Speaker 1: Hi, how are you?",
"speakers": [
{ "preset": "Frank [EN]" }
]
}
try:
response = requests.post(url, headers=headers, json=payload)
response.raise_for_status() # Raise an exception for bad status codes
response_data = response.json()
audio_url = response_data["audio"]["url"]
file_name = response_data["audio"]["file_name"]
audio_response = requests.get(audio_url, stream=True)
audio_response.raise_for_status()
dist = os.path.join(os.path.dirname(__file__), file_name)
with open(dist, "wb") as write_stream:
for chunk in audio_response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
print(f"Duration: {response_data['duration']} seconds")
print(f"Sample rate: {response_data['sample_rate']} Hz")
except requests.exceptions.RequestException as e:
print(f"Error making request: {e}")
except Exception as e:
print(f"Error: {e}")
main()

Détails du produit
✨ VibeVoice 7B est un modèle de synthèse vocale révolutionnaire basé sur l'IA, conçu pour produire une parole incroyablement naturelle, expressive et contextuelle. C'est la solution idéale pour les développeurs, les créateurs de contenu et les entreprises à la recherche de fonctionnalités vocales polyvalentes dans divers secteurs, notamment les médias, les assistants virtuels, les jeux vidéo, l'éducation et les technologies d'accessibilité. Grâce à des architectures neuronales profondes avancées, VibeVoice 7B offre des personnalités vocales personnalisables, enrichies de nuances émotionnelles et d'une précision linguistique remarquable.
Capacités techniques et flexibilité des entrées
✅ Types d'entrées du modèle
VibeVoice 7B prend en charge divers formats d'entrée, notamment le texte brut , le SSML (Speech Synthesis Markup Language) pour un contrôle précis de la parole, et les paramètres de prosodie pour affiner l'intonation, le débit et le rythme. Il offre ainsi un contrôle précis des sorties vocales, parfaitement adaptable à différents scénarios et préférences d'utilisation.
💭 Longueur de l'entrée et prise en compte du contexte
Ce modèle est capable de traiter des échanges conversationnels longs tout en conservant une forte cohérence contextuelle. Il est donc particulièrement adapté aux dialogues dynamiques, à la narration et aux interactions complexes à plusieurs tours de parole.
Indicateurs de performance et de qualité de production
- ⏱ Génération vocale en temps réel : optimisé pour une réponse rapide, VibeVoice 7B génère une parole haute fidélité à des vitesses quasi temps réel , parfaite pour les applications interactives comme les chatbots en direct et les avatars virtuels.
- 🎧 Fidélité audio : Il offre une restitution vocale d'une clarté exceptionnelle, digne d'un studio d'enregistrement, avec une riche texture tonale, une prosodie naturelle et une grande précision phonétique. Son vocodeur neuronal garantit une synthèse audio fluide et sans artefacts.
- 🎭 Variété de styles vocaux : Prend en charge une large gamme de styles vocaux, d'accents et de tonalités émotionnelles — du joyeux et énergique au calme et professionnel — permettant aux marques de forger des identités sonores uniques.
Architecture et innovations des modèles
- 🧩 Conception hybride basée sur un transformateur : VibeVoice 7B utilise une architecture de transformateurs enrichie de mécanismes d’attention spécialement conçus pour les caractéristiques de la parole. Cette conception hybride excelle dans la capture des dépendances linguistiques à longue portée et des schémas prosodiques .
- 😍 Modulation émotionnelle et expressive : des vecteurs d’intégration avancés simulent les états émotionnels et l’intention du locuteur, permettant une synthèse vocale expressive qui surpasse de loin les voix robotiques conventionnelles.
- 🌍 Ensemble de données d'entraînement robuste : entraîné sur un vaste ensemble de données multilingues couvrant diverses données démographiques, accents et styles de parole, assurant une grande adaptabilité à travers les langues et les domaines.
Fonctionnalités principales et scénarios d'utilisation
- 🧑🗨️ Création de voix personnalisées : Les utilisateurs peuvent générer des variantes vocales personnalisées en ajustant le style, la hauteur et les paramètres émotionnels de la voix. Idéal pour les applications vocales interactives et les contenus audio uniques.
- 🌆 Applications multi-domaines : Largement applicable à la narration de livres audio, aux voix off dans les vidéos et les publicités, aux voix de personnages de jeux vidéo, aux outils d'accessibilité pour les personnes malvoyantes et aux systèmes d'IA conversationnelle avancés.
💸 Tarification de l'API
- 0,042 $ par minute générée – une tarification rentable et transparente.
Principaux cas d'utilisation de VibeVoice 7B
- 🤖 Assistants virtuels interactifs et chatbots : dotez les personnages IA de personnalités vocales riches et crédibles qui adaptent leur ton en fonction du déroulement de la conversation, améliorant ainsi l’engagement des utilisateurs.
- 🎥 Production vocale pour les médias et le divertissement : Générez des voix de personnages et des scénarios variés sans avoir recours à des séances d’enregistrement en studio coûteuses, ce qui simplifie les flux de production.
- 💻 Accessibilité et technologies d'assistance : Créer des lecteurs d'écran et des outils de communication au son naturel qui favorisent l'expression émotionnelle, améliorant ainsi considérablement l'expérience utilisateur des personnes malvoyantes.
- 📚 Outils pédagogiques : Facilitez l'apprentissage des langues et les applications d'orthophonie grâce à une prononciation claire et expressive et un rythme personnalisable, rendant l'apprentissage plus efficace et plus attrayant.
Exemple de code
(Remarque : ceci est un espace réservé à un extrait de code ou à un exemple d’intégration d’API réel.)
Analyse comparative avec les principaux modèles de synthèse vocale
🔊 Par rapport à ElevenLabs (ElevenVoice) : Alors qu'ElevenLabs excelle dans l'intégration d'entrées multimodales et le transfert de style étendu, VibeVoice 7B se différencie par une expressivité émotionnelle supérieure et une aptitude à l'interaction en temps réel , offrant une granularité plus fine dans la prosodie et l'adaptation contextuelle de la parole.
🔊 Comparaison avec la synthèse vocale de Google : les solutions de synthèse vocale de Google offrent une large prise en charge linguistique et une intégration robuste, mais privilégient souvent la généralité. VibeVoice 7B, en revanche, propose une modulation émotionnelle plus riche et des fonctionnalités avancées de création vocale personnalisée , ce qui en fait un choix privilégié pour les contenus créatifs et les applications vocales spécifiques à une marque.
🔊 Comparaison avec Amazon Polly : Amazon Polly est une plateforme robuste pour les déploiements à grande échelle et la prise en charge multilingue. Cependant, VibeVoice 7B la surpasse en offrant des variations de tonalité dynamiques et expressives , ainsi qu’une fidélité vocale plus naturelle, imitant plus efficacement les nuances de la parole humaine.
🔊 Comparaison avec Microsoft Azure Speech Service : Azure Speech privilégie le déploiement en entreprise et la synergie de transcription. Le principal atout de VibeVoice 7B réside dans sa capacité à adapter dynamiquement l’expressivité et le style de la voix , ce qui le rend particulièrement adapté aux expériences utilisateur narratives et conversationnelles.
Foire aux questions (FAQ)
❓ Qu'est-ce qui confère à la synthèse vocale du VibeVoice 7B une qualité studio ?
VibeVoice 7B utilise une architecture de diffusion en cascade sophistiquée et un traitement vocodeur multi-échelle. Ceci garantit une fidélité, un naturel et des caractéristiques acoustiques exceptionnels, capturant à la fois les grandes tendances prosodiques et les nuances vocales les plus subtiles.
❓ Comment l'échelle de paramètres 7B améliore-t-elle l'expressivité émotionnelle ?
Le budget étendu de 7 milliards de paramètres permet une modélisation émotionnelle sophistiquée, des variations prosodiques nuancées et une modélisation spectrale détaillée. Il intègre des encodeurs émotionnels spécialisés et un contrôle avancé de la hauteur et du rythme, permettant une parole d'une profondeur émotionnelle et d'une qualité vocale remarquables.
❓ Quelles sont les fonctionnalités de personnalisation vocale offertes par VibeVoice 7B ?
Les utilisateurs bénéficient d'un contrôle précis sur l'expression des émotions, d'un clonage vocal haute fidélité à partir d'un nombre limité d'échantillons et de réglages fins de la hauteur, du timbre et des caractéristiques de la voix. Parmi les fonctionnalités avancées figurent la définition de l'arc émotionnel des récits et l'adaptation aux accents et dialectes.
❓ VibeVoice 7B peut-il gérer des tâches de lecture narratives et dramatiques complexes ?
Oui, le modèle démontre une compréhension narrative avancée, avec un rythme approprié, une différenciation des voix des personnages dans les dialogues, une progression émotionnelle tout au long des histoires et une interprétation dramatique. Sa modélisation prosodique contextuelle adapte la diction en fonction de la structure narrative.
❓ Quelles applications professionnelles tirent le plus grand profit de VibeVoice 7B ?
Les applications professionnelles telles que la production de livres audio, les dialogues de jeux vidéo, le contenu animé, les voix off publicitaires, le contenu éducatif et les interactions avec les assistants virtuels bénéficient grandement de sa qualité de sortie de niveau studio et de son contrôle créatif étendu.
Terrain de jeu de l'IA



Se connecter