



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post(
'/tts',
{
model: 'minimax/speech-2.5-hd-preview',
text: 'Hi! What are you doing today?',
voice_setting: {
voice_id: 'Wise_Woman'
}
},
{ responseType: 'stream' },
);
const dist = path.resolve(__dirname, './audio.wav');
const writeStream = fs.createWriteStream(dist);
response.data.pipe(writeStream);
writeStream.on('close', () => console.log('Audio saved to:', dist));
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "minimax/speech-2.5-hd-preview",
"text": "Hi! What are you doing today?",
"voice_setting": {
"voice_id": 'Wise_Woman'
}
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.join(os.path.dirname(__file__), "audio.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()
- API 操练场(Playground)

在集成之前,请在沙箱环境中测试所有 API 模型。
我们提供 300 多种模型供您集成到您的应用程序中。


产品详情
MiniMax Speech 2.5 HD 是一项尖端技术 人工智能语音合成解决方案 MiniMax Speech 2.5 HD 旨在提供超逼真、富有表现力且高清的语音输出,适用于各种应用场景。它采用先进的深度学习架构,通过提供可扩展、可定制的语音生成功能,为内容创作者、开发者和企业提供支持。
✨ 主要特性和技术概述
🗣️ 广泛的语音合成范围和输入处理
MiniMax Speech 2.5 HD 支持多种文本输入格式,包括纯文本。 SSML(语音合成标记语言)以及自定义音素序列。这种灵活性使得对发音、语调、重音和语速进行细致控制成为可能,从而确保高度自然且富有表现力的语音输出,适用于旁白、对话和交互式语音应用。
🚀 性能与质量基准
- ✅ 合成速度: 近乎实时的音频生成,针对直播、对话式人工智能和语音助手集成进行了优化。
- ✅ 音频质量: 录音棚级别的语音合成,具有丰富的HD音频清晰度、自然的韵律和流畅的情感表达。
- ✅ 多语言和多样式支持: 超过 40种语言和方言具有多样化的声音形象,包括性别差异、口音和专业语气。
⚙️ MiniMax Speech 2.5 HD 背后的架构和技术
MiniMax Speech 2.5 HD 利用了 混合神经网络架构 该架构结合了基于Transformer的序列模型和专为语音波形生成而优化的先进卷积层。它集成了文本到频谱图的转换和神经声码器合成,能够生成逼真的音色和微妙的语音动态。训练过程利用了广泛的多语言语料库和丰富的情感语音数据集,以增强表达能力和语境感知。
🛠️核心功能和用户控制
🎨 个性化语音定制
- • 改变声音特征,例如音调、语速和气息感。
- • 运用快乐、悲伤、紧迫或平静等情绪语气。
- • 使用 SSML 标签 为专业级旁白添加停顿、语音拼写和单词重音。
🌐 实际应用和行业用例
- ⭐ 交互式语音助手和客户支持: 面向智能设备和呼叫中心自动化的实时语音生成。
- ⭐ 媒体制作与娱乐: 为电影、动画、视频游戏和电子学习内容提供流畅的配音创作。
- ⭐ 无障碍解决方案: 文本转语音定制功能,为视障用户提供自然流畅的旁白。
- ⭐ 企业及品牌: 为品牌营销和虚拟发言人角色定制语音角色,以提升品牌形象。
💰 API 定价
- 💲 每千个字符 0.105 美元
💻 代码示例
🆚 MiniMax Speech 2.5 HD 与其他主流语音识别模型对比
- ➡️ 与Google WaveNet 相比: MiniMax Speech 2.5 HD 在情感表达和自定义语音适应性方面表现出色,而 WaveNet 则强调广泛的平台兼容性。
- ➡️ 对比亚马逊 Polly: MiniMax 提供更高的音频质量和更精细的 SSML 控制,而 Polly 提供更大的标准语音库。
- ➡️ 与 Microsoft Azure TTS 相比: 与 Azure 更庞大的国际语音库相比,MiniMax Speech 2.5 HD 拥有更自然的韵律和多语言细微差别。
- ➡️ 与 IBM Watson 文本转语音相比: MiniMax 的优势在于实时合成速度和录音棚级高清清晰度,而 IBM 则侧重于集成灵活性和企业安全性。
❓ 常见问题解答 (FAQ)
答:MiniMax Speech 2.5 HD 采用先进的级联扩散架构和多分辨率处理技术,能够生成具有卓越音频保真度和自然度的语音。它具有分层波形建模、高级频谱处理和高分辨率音频生成功能,可实现专业录音棚品质的语音。
答:高清架构实现了复杂的音频增强流程,包括高级降噪、专业动态范围压缩和高保真频谱建模。这些功能与材质感知的人声合成和专业音频母带处理技术相结合,确保了音频质量符合广播和音乐制作标准。
答:该模型展现了对语音制作的专业理解,包括运用细微韵律变化来表达复杂的情感、先进的呼吸和发音建模、专业的语速和时间控制,以及在长时间叙述中保持录音棚级别的语音一致性。它生成的语音具有特定的音质,适用于专业媒体应用。
答:MiniMax Speech 2.5 HD 具备先进的叙事理解能力,能够恰当地控制语速,在多说话场景中区分不同角色的声音,展现情感发展和戏剧化演绎。其上下文感知韵律建模和情感弧线追踪功能,支持复杂的故事叙述和角色塑造。
答:专业应用,例如有声读物制作、视频游戏对话、动画内容、广告配音、教育内容和虚拟助手交互等,都能从中受益匪浅。其录音棚级别的输出质量和强大的创意控制能力对于媒体制作至关重要,因为语音质量和情感真实性会直接影响观众的参与度。



登录