



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post(
'/tts',
{
model: 'minimax/speech-2.8-hd',
text: 'Hi! What are you doing today?',
voice_setting: {
voice_id: 'Wise_Woman'
}
},
{ responseType: 'stream' },
);
const dist = path.resolve(__dirname, './audio.wav');
const writeStream = fs.createWriteStream(dist);
response.data.pipe(writeStream);
writeStream.on('close', () => console.log('Audio saved to:', dist));
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "minimax/speech-2.8-hd",
"text": "Hi! What are you doing today?",
"voice_setting": {
"voice_id": 'Wise_Woman'
}
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.join(os.path.dirname(__file__), "audio.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()

Speech 2.8 HD
MiniMax Speech 2.8 HD 是一款高清文本转语音模型,专为音频质量、音调深度和真实感是首要考虑因素的场景而设计。
什么是 MiniMax Speech 2.8 HD API?
MiniMax Speech 2.8 HD 是 Speech 2.8 系列的高保真版本,旨在呈现广播级音质,音色丰富,细节表现力强。它并非追求速度,而是更注重较长音频片段的清晰度、一致性和深度。
该模型基于自回归Transformer架构,并结合Flow-VAE解码器,能够生成更精细的波形,并实现音素和短语之间更平滑的过渡。在盲听评估中,该模型也表现出色,用户一致认为其输出比其他系统更自然。
绩效概述
API定价
- 每百万个字符 130 美元
核心能力
高保真语音渲染
高清模型的最大优势在于其能够再现细微的人声特征,包括呼吸、重音和音调变化。语音听起来不那么压缩,空间感也更强,这在长篇旁白中尤为明显。
表达性情绪控制
情感被深度融入到合成过程中。该模型并非简单地表面调整音调,而是通过改变韵律、节奏和重音来反映情感意图,例如平静、快乐或充满戏剧性的表达。
语音克隆和身份一致性
该系统支持使用短参考样本进行语音克隆,从而能够在不同的剧本中保持一致的语音特征。即使输入信息很少,它也能保持可识别的语音特征,提高连续剧内容的连贯性。
多语言语音生成
MiniMax Speech 2.8 HD 支持 30 多种语言,在语言变化中保持发音准确性和语调一致性。
语音控制和音频自定义
细粒度语音参数
该模型能够对发音特征进行可预测的控制。速度、音调和音量都可以在较大范围内调节,同时保持自然的发音清晰度。
结构化的停顿和时间安排
自定义暂停标记可以精确控制语速。这在旁白中尤其有用,因为节奏和时机直接影响听众的参与度。
多种输出格式
音频可以生成为 WAV、MP3、FLAC 或 PCM 等格式,比特率和采样率均可配置。
自然语音细节
类人感叹词
MiniMax Speech 2.8 HD 支持嵌入式语音提示,例如笑声、叹息声或呼吸声。这些并非叠加效果,而是语音本身生成的,因此听起来自然流畅,而非生硬做作。
持续长篇交付
与许多在较长段落中音质下降的 TTS 系统不同,该模型在较长的文本中保持稳定的语调和节奏,这对于有声读物和播客至关重要。
功能细分
用例
有声读物和长篇叙述
MiniMax Speech 2.8 HD 在有声读物制作中表现尤为出色,因为长时间保持音调一致至关重要。该型号避免了因长时间播放而导致的音质下降,确保从头到尾声音稳定。
专业配音
对于营销视频、企业内容或品牌媒体,该模型生成的音频质量与录音棚录制的质量非常接近,从而减少了后期处理的需要。
播客和媒体制作
生成的语音清晰而富有深度,使其非常适合播客工作流程,尤其是在需要保持一致性和时间安排灵活性的情况下。
无障碍和辅助音频
高清晰度和自然的语速可以改善辅助功能应用程序的聆听体验,尤其是在长时间聆听的情况下。
HD 与 Turbo:主要区别



登录