



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post(
'/tts',
{
model: 'minimax/speech-2.8-hd',
text: 'Hi! What are you doing today?',
voice_setting: {
voice_id: 'Wise_Woman'
}
},
{ responseType: 'stream' },
);
const dist = path.resolve(__dirname, './audio.wav');
const writeStream = fs.createWriteStream(dist);
response.data.pipe(writeStream);
writeStream.on('close', () => console.log('Audio saved to:', dist));
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "minimax/speech-2.8-hd",
"text": "Hi! What are you doing today?",
"voice_setting": {
"voice_id": 'Wise_Woman'
}
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.join(os.path.dirname(__file__), "audio.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()

Речь 2.8 HD
MiniMax Speech 2.8 HD — это модель преобразования текста в речь высокого разрешения, разработанная для ситуаций, где качество звука, глубина тона и реализм являются первостепенными задачами.
Что такое MiniMax Speech 2.8 HD API?
MiniMax Speech 2.8 HD — это высококачественная версия серии Speech 2.8, разработанная для воспроизведения звука вещательного качества с насыщенным тембром и выразительными нюансами. Вместо оптимизации скорости, она делает акцент на четкости, стабильности и глубине звучания на протяжении более длинных аудиофрагментов.
Модель основана на авторегрессивной архитектуре Transformer в сочетании с декодером Flow-VAE, что позволяет генерировать более детальные волновые формы и обеспечивать более плавные переходы между фонемами и фразами. Она также показала высокие результаты в слепых тестах на слух, где пользователи неизменно оценивали ее звучание как более естественное по сравнению с конкурирующими системами.
Обзор производительности
Цены на API
- 130 долларов за 1 миллион символов
Основные возможности
Высококачественная обработка голоса
Главное преимущество модели HD — это способность воспроизводить тонкие голосовые характеристики, включая дыхание, ударение и тональные вариации. Речь звучит менее сжато и более пространственно согласованно, что особенно заметно в длинных закадровых текстах.
Экспрессивный контроль эмоций
Эмоции глубоко интегрированы в процесс синтеза. Вместо того чтобы просто поверхностно корректировать тон, модель изменяет просодию, темп и акценты, чтобы отразить эмоциональное намерение, такое как спокойствие, радость или драматизм.
Клонирование голоса и обеспечение согласованности идентификации
Система поддерживает клонирование голоса с использованием коротких эталонных сэмплов, что позволяет ей воспроизводить единообразную идентичность голоса в разных сценариях. Даже при минимальном вводе она сохраняет узнаваемые голосовые характеристики, повышая непрерывность в сериализованном контенте.
Генерация многоязычной речи
MiniMax Speech 2.8 HD поддерживает более 30 языков, обеспечивая точность произношения и тональную согласованность при различных языковых вариантах.
Голосовое управление и настройка звука
Детальные параметры речи
Данная модель обеспечивает предсказуемый контроль над характеристиками исполнения. Скорость, высота тона и громкость могут регулироваться в широких диапазонах, сохраняя при этом естественную артикуляцию.
Структурированные паузы и хронометраж
Настраиваемые маркеры пауз позволяют точно контролировать темп повествования. Это особенно полезно в закадровом тексте, где ритм и темп напрямую влияют на вовлеченность слушателя.
Несколько форматов вывода
Аудиофайлы могут быть сгенерированы в таких форматах, как WAV, MP3, FLAC или PCM, с настраиваемым битрейтом и частотой дискретизации.
Детали естественной речи
Человекоподобные междометия
MiniMax Speech 2.8 HD поддерживает встроенные голосовые сигналы, такие как смех, вздохи или звуки дыхания. Это не наложенные друг на друга эффекты, а генерируемые как часть самой речи, что делает их гармоничными, а не искусственными.
Последовательная доставка в расширенном формате
В отличие от многих систем преобразования текста в речь, которые ухудшаются при воспроизведении длинных фрагментов, эта модель поддерживает стабильный тон и темп на протяжении всего текста, что крайне важно для аудиокниг и подкастов.
Разбор функций
Варианты использования
Аудиокниги и длинные аудиокниги
MiniMax Speech 2.8 HD особенно эффективен для создания аудиокниг, где крайне важно поддерживать стабильный тон на протяжении длительного времени. Эта модель предотвращает ухудшение качества звука, вызывающее усталость, и обеспечивает стабильное звучание от начала до конца.
Профессиональная озвучка
Для маркетинговых видеороликов, корпоративного контента или брендированных медиаматериалов эта модель воспроизводит звук, максимально приближенный к качеству студийной записи, что снижает необходимость в постобработке.
Производство подкастов и медиаконтента
Четкость и глубина сгенерированного голоса делают его подходящим для рабочих процессов создания подкастов, особенно когда требуется согласованность и гибкость в планировании.
Доступность и вспомогательное аудио
Высокая разборчивость и естественный темп улучшают качество прослушивания в приложениях для людей с ограниченными возможностями, особенно при длительных сеансах.
HD против Turbo: ключевые различия
Игровая площадка для ИИ



Авторизоваться