在

出去

聊天

积极的

Speech 2.8 HD

它专注于提供流畅自然、可直接用于生产的语音，其对细节的关注程度超越了标准的 TTS 系统。

Text to Speech

Javascript

Python

                                        const fs = require('fs');
const path = require('path');

const axios = require('axios').default;
const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post(
    '/tts',
    {
      model: 'minimax/speech-2.8-hd',
      text: 'Hi! What are you doing today?',
      voice_setting: {
        voice_id: 'Wise_Woman'
      }
    },
    { responseType: 'stream' },
  );

  const dist = path.resolve(__dirname, './audio.wav');
  const writeStream = fs.createWriteStream(dist);

  response.data.pipe(writeStream);

  writeStream.on('close', () => console.log('Audio saved to:', dist));
};

main();

                                        import os
import requests


def main():
    url = "https://api.ai.cc/v1/tts"
    headers = {
        "Authorization": "Bearer ",
    }
    payload = {
        "model": "minimax/speech-2.8-hd",
        "text": "Hi! What are you doing today?",
        "voice_setting": {
         "voice_id": 'Wise_Woman'
        }
    }

    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.join(os.path.dirname(__file__), "audio.wav")

    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)

    print("Audio saved to:", dist)


main()

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

联系我们探索模型

Speech 2.8 HD

MiniMax Speech 2.8 HD 是一款高清文本转语音模型，专为音频质量、音调深度和真实感是首要考虑因素的场景而设计。

什么是 MiniMax Speech 2.8 HD API？

MiniMax Speech 2.8 HD 是 Speech 2.8 系列的高保真版本，旨在呈现广播级音质，音色丰富，细节表现力强。它并非追求速度，而是更注重较长音频片段的清晰度、一致性和深度。

该模型基于自回归Transformer架构，并结合Flow-VAE解码器，能够生成更精细的波形，并实现音素和短语之间更平滑的过渡。在盲听评估中，该模型也表现出色，用户一致认为其输出比其他系统更自然。

绩效概述

属性	细节
型号	自回归变压器 + 流变变分
主要关注点	音质和真实感
声音	17+种预设音色
语言	支持 30 多种
最大输入长度	约10,000个字符
输出格式	WAV、MP3、FLAC、PCM
情绪模式	多种（例如平静、快乐、戏剧化）

API定价

每百万个字符 130 美元

核心能力

高保真语音渲染

高清模型的最大优势在于其能够再现细微的人声特征，包括呼吸、重音和音调变化。语音听起来不那么压缩，空间感也更强，这在长篇旁白中尤为明显。

表达性情绪控制

情感被深度融入到合成过程中。该模型并非简单地表面调整音调，而是通过改变韵律、节奏和重音来反映情感意图，例如平静、快乐或充满戏剧性的表达。

语音克隆和身份一致性

该系统支持使用短参考样本进行语音克隆，从而能够在不同的剧本中保持一致的语音特征。即使输入信息很少，它也能保持可识别的语音特征，提高连续剧内容的连贯性。

多语言语音生成

MiniMax Speech 2.8 HD 支持 30 多种语言，在各种语言变体中保持发音准确性和语调一致性。

语音控制和音频自定义

细粒度语音参数

该模型能够对发音特征进行可预测的控制。速度、音调和音量都可以在较大范围内调节，同时保持自然的发音清晰度。

结构化的停顿和时间安排

自定义暂停标记可以精确控制语速。这在旁白中尤其有用，因为节奏和时机直接影响听众的参与度。

多种输出格式

音频可以生成为 WAV、MP3、FLAC 或 PCM 等格式，比特率和采样率均可配置。

自然语音细节

类人感叹词

MiniMax Speech 2.8 HD 支持嵌入式语音提示，例如笑声、叹息声或呼吸声。这些并非叠加效果，而是语音本身生成的，因此听起来自然流畅，而非生硬做作。

持续长篇交付

与许多在较长段落中音质下降的 TTS 系统不同，该模型在较长的文本中保持稳定的语调和节奏，这对于有声读物和播客至关重要。

功能细分

能力	描述	实际影响
情绪建模	动态调整韵律和节奏	更可信的叙述
语音克隆	适用于短音频样本	一致的品牌或角色语调
感叹词	支持自然语音提示	为对话增添真实感
音频调谐	控制音调、速度、音量	精细的用户体验和故事叙述控制

用例

有声读物和长篇叙述

MiniMax Speech 2.8 HD 在有声读物制作中表现尤为出色，因为长时间保持音调一致至关重要。该型号避免了因长时间播放而导致的音质下降，确保从头到尾声音稳定。

专业配音

对于营销视频、企业内容或品牌媒体，该模型生成的音频质量与录音棚录制的质量非常接近，从而减少了后期处理的需要。

播客和媒体制作

生成的语音清晰而富有深度，使其非常适合播客工作流程，尤其是在需要一致性和时间安排灵活性的情况下。

无障碍和辅助音频

高清晰度和自然的语速可以改善辅助功能应用程序的聆听体验，尤其是在长时间聆听的情况下。

HD 与 Turbo：主要区别

特征	Speech 2.8 HD	Speech 2.8 Turbo
优先事项	极致真实感	低延迟
音频细节	高（录音棚级）	中等至高
延迟	更高	非常低
最适合	旁白、音频制作	实时互动
一致性（长篇）	强的	缓和

‍

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

联系我们

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用

联系我们

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

Speech 2.8 HD

什么是 MiniMax Speech 2.8 HD API？

绩效概述

API定价

核心能力

高保真语音渲染

表达性情绪控制

语音克隆和身份一致性

多语言语音生成

语音控制和音频自定义

细粒度语音参数

结构化的停顿和时间安排

多种输出格式

自然语音细节

类人感叹词

持续长篇交付

功能细分

用例

有声读物和长篇叙述

专业配音

播客和媒体制作

无障碍和辅助音频

HD 与 Turbo：主要区别

API 操练场（Playground）

300 多个 AI 模型 OpenClaw 和人工智能代理

300 多个 AI 模型
OpenClaw 和人工智能代理