



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post(
'/tts',
{
model: 'minimax/speech-2.8-hd',
text: 'Hi! What are you doing today?',
voice_setting: {
voice_id: 'Wise_Woman'
}
},
{ responseType: 'stream' },
);
const dist = path.resolve(__dirname, './audio.wav');
const writeStream = fs.createWriteStream(dist);
response.data.pipe(writeStream);
writeStream.on('close', () => console.log('Audio saved to:', dist));
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "minimax/speech-2.8-hd",
"text": "Hi! What are you doing today?",
"voice_setting": {
"voice_id": 'Wise_Woman'
}
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.join(os.path.dirname(__file__), "audio.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()

Parole 2.8 HD
MiniMax Speech 2.8 HD est un modèle de synthèse vocale haute définition conçu pour les scénarios où la qualité audio, la profondeur tonale et le réalisme sont les priorités absolues.
Qu'est-ce que l'API MiniMax Speech 2.8 HD ?
MiniMax Speech 2.8 HD est la version haute fidélité de la série Speech 2.8, conçue pour produire un son de qualité professionnelle avec un timbre riche et des nuances expressives. Au lieu d'optimiser la vitesse, elle privilégie la clarté, la cohérence et la profondeur sur les longs segments audio.
Ce modèle repose sur une architecture Transformer autorégressive associée à un décodeur Flow-VAE, permettant une génération de formes d'onde plus détaillée et des transitions plus fluides entre les phonèmes et les phrases. Il a également obtenu d'excellents résultats lors d'évaluations d'écoute à l'aveugle, où les utilisateurs ont systématiquement jugé sa restitution plus naturelle que celle des systèmes concurrents.
Aperçu des performances
Tarification de l'API
- 130 $ par million de caractères
Capacités de base
Rendu vocal haute fidélité
Le principal atout du modèle HD réside dans sa capacité à reproduire les subtilités de la voix, comme la respiration, l'accentuation et les variations tonales. La parole paraît moins compressée et plus homogène spatialement, ce qui est particulièrement perceptible dans les longs récits.
Contrôle des émotions expressives
L'émotion est profondément intégrée au processus de synthèse. Au lieu de simplement ajuster superficiellement le ton, le modèle modifie la prosodie, le rythme et l'accentuation pour refléter l'intention émotionnelle, qu'il s'agisse d'une interprétation calme, joyeuse ou dramatique.
Clonage vocal et cohérence de l'identité
Le système prend en charge le clonage vocal à partir de courts extraits de référence, ce qui lui permet de recréer une identité vocale cohérente d'un script à l'autre. Même avec un minimum d'éléments d'entrée, il conserve des caractéristiques vocales reconnaissables, améliorant ainsi la continuité des contenus sérialisés.
Génération de parole multilingue
MiniMax Speech 2.8 HD prend en charge plus de 30 langues, en maintenant la précision de la prononciation et la cohérence tonale malgré les variations linguistiques.
Commande vocale et personnalisation audio
Paramètres vocaux précis
Ce modèle permet un contrôle précis des caractéristiques de la restitution vocale. La vitesse, la hauteur et le volume peuvent être ajustés dans une large plage tout en préservant l'articulation naturelle.
Pauses structurées et timing
Les marqueurs de pause personnalisés permettent un contrôle précis du rythme. Ceci est particulièrement utile pour la narration, où le rythme et le timing influencent directement l'attention de l'auditeur.
Formats de sortie multiples
Les fichiers audio peuvent être générés dans des formats tels que WAV, MP3, FLAC ou PCM, avec un débit binaire et des fréquences d'échantillonnage configurables.
Détails de la parole naturelle
Interjections semblables à celles des humains
MiniMax Speech 2.8 HD prend en charge les signaux vocaux intégrés tels que les rires, les soupirs ou les bruits de respiration. Ces signaux ne sont pas superposés, mais générés directement à la parole, ce qui leur confère un aspect naturel et fluide.
Livraison régulière de longs formats
Contrairement à de nombreux systèmes de synthèse vocale qui se dégradent sur les longs passages, ce modèle maintient un ton et un rythme stables sur des textes longs, ce qui est essentiel pour les livres audio et les podcasts.
Analyse des fonctionnalités
Cas d'utilisation
Livres audio et narration longue
MiniMax Speech 2.8 HD est particulièrement performant pour la production de livres audio, où le maintien d'une tonalité constante sur de longues durées est essentiel. Ce modèle évite la dégradation due à la fatigue vocale et assure une restitution stable du début à la fin.
Voix off professionnelles
Pour les vidéos marketing, les contenus d'entreprise ou les supports de marque, ce modèle produit un son d'une qualité proche de celle des enregistrements studio, réduisant ainsi le besoin de post-traitement.
Production de podcasts et de médias
La clarté et la profondeur de la voix générée la rendent idéale pour les flux de travail de podcast, notamment lorsque la cohérence et la flexibilité de planification sont requises.
Accessibilité et audio d'assistance
Une intelligibilité élevée et un rythme naturel améliorent l'expérience d'écoute pour les applications d'accessibilité, en particulier pour les sessions prolongées.
HD vs Turbo : Principales différences
Terrain de jeu de l'IA



Se connecter