Вне

Чат

запрещать

VibeVoice 1.5B

Данная модель обеспечивает точный контроль над тоном, темпом, эмоциями и языком, что делает ее идеальным выбором для компаний, стремящихся к высококачественным и масштабируемым решениям для генерации речи.

Новые участники получат бесплатные токены номиналом 1 доллар.

Text to Speech

Javascript

Python

                                        const fs = require('fs');
const path = require('path');

const axios = require('axios').default;
const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  try {
    const response = await api.post('/tts', {
      model: 'microsoft/vibevoice-1.5b',
      script: 'Speaker 0: Hello there! Speaker 1: Hi, how are you?',
      speakers: [
        { preset: 'Frank [EN]' }
      ]
    });

    const responseData = response.data;
    const audioUrl = responseData.audio.url;
    const fileName = responseData.audio.file_name;

    const audioResponse = await api.get(audioUrl, { responseType: 'stream' });

    const dist = path.resolve(__dirname, fileName);
    const writeStream = fs.createWriteStream(dist);

    audioResponse.data.pipe(writeStream);

    writeStream.on('close', () => {
      console.log('Audio saved to:', dist);
      console.log(`Duration: ${responseData.duration} seconds`);
      console.log(`Sample rate: ${responseData.sample_rate} Hz`);
    });

  } catch (error) {
    console.error('Error:', error.message);
  }
};

main();

                                        import os
import requests


def main():
    url = "https://api.ai.cc/v1/tts"
    headers = {
        "Authorization": "Bearer ",
    }
    payload = {
        "model": "microsoft/vibevoice-1.5b",
        "script": "Speaker 0: Hello there! Speaker 1: Hi, how are you?",
        "speakers": [
            { "preset": "Frank [EN]" }
        ]
    }

    try:
        response = requests.post(url, headers=headers, json=payload)
        response.raise_for_status()  # Raise an exception for bad status codes

        response_data = response.json()
        audio_url = response_data["audio"]["url"]
        file_name = response_data["audio"]["file_name"]

        audio_response = requests.get(audio_url, stream=True)
        audio_response.raise_for_status()

        dist = os.path.join(os.path.dirname(__file__), file_name)

        with open(dist, "wb") as write_stream:
            for chunk in audio_response.iter_content(chunk_size=8192):
                if chunk:
                    write_stream.write(chunk)

        print("Audio saved to:", dist)
        print(f"Duration: {response_data['duration']} seconds")
        print(f"Sample rate: {response_data['sample_rate']} Hz")

    except requests.exceptions.RequestException as e:
        print(f"Error making request: {e}")
    except Exception as e:
        print(f"Error: {e}")


main()

Docs

Более 300 моделей ИИ для OpenClaw и агентов ИИ.

Сэкономьте 20% на расходах и получите бесплатные токены на 1 доллар.

Получить ключ API Изучите модели

VibeVoice 1.5B

Подробная информация о товаре

VibeVoice 1.5B является новаторским модель синтеза голоса на основе искусственного интеллектатщательно разработан для обеспечения высококачественная, естественно звучащая речьОн может похвастаться исключительными выразительная модуляция тонаЭто решение безупречно адаптируется к различным языкам и контекстам. Благодаря своей масштабируемости и универсальности оно расширяет возможности создателей контента, разработчиков и предприятий, предоставляя расширенные возможности генерации голоса для широкого спектра приложений, включая виртуальных помощников, аудиокниги, игры и мультимедийное производство.

✨ Ключевые возможности и универсальность ввода

VibeVoice 1.5B мастерски обрабатывает различные типы входных данных, создавая реалистичную речь с тонкой просодией, что обеспечивает адаптивность к любому проекту. Поддерживаются:

✓ Простой текст: Для простого и прямого создания речи.
✓ SSML (язык разметки синтеза речи): Это позволяет осуществлять точный контроль над такими характеристиками речи, как паузы, произношение и интонация.
✓ Эмоциональные/стилевые теги: Вложить в результат определенные эмоции и использовать различные стили речи.

Эта модель отлично справляется со своей задачей. Разговорные диалоги, повествование и голоса персонажейБлагодаря динамичной интонации каждое высказывание звучит по-настоящему по-человечески.

🚀 Непревзойденная производительность и качество выходного сигнала

⏳ Задержка: Оптимизировано для генерация голоса практически в реальном времениVibeVoice 1.5B идеально подходит для интерактивных приложений, таких как чат-боты и прямые трансляции, обеспечивая мгновенную и бесперебойную связь.
🎧 Качество звука: Оно стабильно производит студийное качество звукаХарактеризуется четкой артикуляцией, естественной интонацией и плавными переходами. Это делает его идеальным как для профессионального, так и для потребительского применения, требующего высочайшего качества звука.
💬 Выразительность: Модель обеспечивает детальный контроль над эмоциональный тон, акцент, темп и адаптация акцентаТакая гибкость позволяет пользователям идеально согласовывать голосовой вывод с конкретными требованиями к повествованию и потребностями брендинга.

🧠 Передовая техническая архитектура

VibeVoice 1.5B создан на основе сложной архитектуры. нейронная архитектура преобразования текста в речь (TTS) на основе трансформеровОна включает в себя передовые модули моделирования просодии, использующие многослойные механизмы самовнимания и сверточные слои, специально оптимизированные для извлечения временных акустических признаков. Исключительная производительность модели является результатом обширного обучения на обширный корпус многоязычных речевых записей а также богато аннотированные наборы данных эмоциональной речи, обеспечивающие надежную обобщающую способность для широкого круга говорящих и стилей.

💲 Цены на API

💰 0,042 доллара за минуту генерации

⭐ Краткий обзор основных функций

📝 Многомодальная обработка входных данных: Принимает различные форматы входных данных, включая текстовый контент, обогащенный встроенными эмоциональными подсказками и точными инструкциями на уровне фонем, обеспечивая беспрецедентный контроль над синтезированным голосом.
🎧 Выразительная настройка голоса: Позволяет детально настраивать важные параметры речи, такие как высота тона, скорость речи, эмоциональный оттенок и тонкие вариации в идентичности говорящего, обеспечивая идеальное соответствие голоса вашему творческому замыслу.
🌐 Многоязычная и многодиалоговая поддержка: Обеспечивает стабильно естественное воспроизведение голоса на многих языках и региональных диалектах, поддерживая высокое качество звука для поистине глобального охвата.

💡 Разнообразные области применения

👤 Виртуальные помощники и чат-боты: Способствуйте увлекательному, человекоподобному взаимодействию, улучшая поддержку клиентов и цифровое общение.
📚 Озвучивание аудиокниг и подкастов: Создавайте динамичные голосовые образы с четкой дифференциацией персонажей и передачей эмоций, оживляя повествование.
🎮 Игры и анимация: Создавайте реалистичные голоса персонажей с широкими возможностями стилизации, способствуя глубокому погружению в сюжет и игровой процесс.
📖 Инструменты обеспечения доступности: Обеспечьте высококачественные голоса для программ чтения с экрана с настраиваемой выразительностью, что значительно улучшит пользовательский опыт для всех.
🌎 Локализация контента: Обеспечьте быструю и естественную озвучку на нескольких языках, что позволит без труда распространять контент по всему миру и расширять охват аудитории.

📝 Пример кода

// Пример использования API VibeVoice 1.5B
const textToSynthesize = "Здравствуйте, это говорит VibeVoice 1.5B!";
const voiceParams = {
модель: "microsoft/vibevoice-1.5b",
language: "en-US",
эмоция: «радостный»
};
VibeVoice.synthesize(textToSynthesize, voiceParams)
.then(audioUrl => console.log("Сгенерированное аудио:", audioUrl))
.catch(error => console.error("Ошибка синтеза голоса:", error));

📈 VibeVoice 1,5 млрд по сравнению с конкурентами

против Eleven Music: В то время как Eleven Music специализируется на создании музыки с помощью искусственного интеллекта и обладает сложными возможностями для композиции, VibeVoice 1.5B выделяется тем, что превосходит конкурентов в следующем: Естественный и выразительный синтез голосаспециально для устной речи.
против ИИ Suno: В отличие от Suno AI, ориентированного на функции генерации музыки, главная сила VibeVoice 1.5B заключается в его Превосходное качество речи, непревзойденный контроль просодии., и многоязычная голосовая доставкаТщательно разработанный для разговорного контекста, а не для музыкального контента.
против Поделиться: Udio обычно ориентирован на более простые задачи создания аудио с ограниченным синтезом голоса. VibeVoice, напротив, предлагает значительно больше возможностей. более высокая точность воспроизведения, детальная вариация эмоцийа также более широкую поддержку приложений, разработанную с учетом профессиональных требований к генерации голоса.
против песочницы MusicAI: MusicAI Sandbox в первую очередь ориентирован на творческие музыкальные эксперименты. В отличие от него, VibeVoice 1.5B отдает приоритет реалистичное воспроизведение речи, предоставляя расширенные возможности точной настройки для широкого спектра вокальных характеристик и стилей.
против AIMusic.fm: AIMusic.fm в значительной степени автоматизирует создание музыки с ограниченными возможностями настройки. VibeVoice предоставляет детальный контроль над параметрами речи а также широкие возможности адаптации стиля, специально разработанные для проектов, ориентированных на речь.

☝ Часто задаваемые вопросы (FAQ)

1. Какая архитектура нейронного вокодера обеспечивает выразительный синтез речи в VibeVoice 1.5B?

VibeVoice 1.5B использует эффективная архитектура диффузии с согласованием потоковТщательно оптимизированная для эмоциональной выразительности и качества голоса при наличии 1,5 миллиарда параметров, эта архитектура включает иерархическую генерацию волновых форм, которая улавливает как макропросодические паттерны, так и микроинтонационные детали, в сочетании со стилистической адаптивной нормализацией для сохранения индивидуальности говорящего в различных эмоциональных состояниях.

2. Каким образом модель достигает эмоциональной выразительности в рамках своего компактного параметрического бюджета?

Данная модель реализует высокоэффективное моделирование эмоциональной просодии посредством концентрированные эмоциональные встраиванияЭти алгоритмы улавливают акустические корреляты различных эмоциональных состояний без необходимости значительных накладных расходов на параметры. В сочетании с общими инструментами извлечения эмоциональных признаков и оптимизированными сетями для определения высоты тона/времени это позволяет получить впечатляющий диапазон эмоций.

3. Какие возможности настройки голоса предлагает VibeVoice 1.5B?

VibeVoice 1.5B обеспечивает эффективную адаптацию голоса благодаря обучение с малым количеством примеров Благодаря ограниченному количеству аудиосэмплов и эффективной настройке параметров, пользователи могут регулировать такие характеристики голоса, как высота тона, темп речи и эмоциональная интенсивность. Также поддерживается перенос стиля с эталонного аудио и базовая адаптация акцента при сохранении вычислительной эффективности.

4. Как VibeVoice 1.5B обеспечивает баланс между качеством и эффективностью в различных сценариях развертывания?

Модель использует разумное распределение ресурсовНаправляя вычислительный бюджет на наиболее важные с точки зрения восприятия аспекты генерации речи. Это включает в себя адаптивное масштабирование качества, эффективные механизмы внимания и оптимизированные конвейеры обработки звука. Такой сбалансированный подход обеспечивает высокую производительность в различных средах развертывания, от облачных экземпляров до периферийных устройств.

5. Какие практические приложения больше всего выигрывают от эффективной конструкции VibeVoice 1.5B?

Благодаря своей эффективности он исключительно подходит для таких применений, как... мобильные голосовые помощники, встроенные системы с ограниченными вычислительными ресурсами, многопользовательские облачные сервисы это требует экономически эффективного генерирования голоса, интерактивных приложений в реальном времени со строгими требованиями к задержке, а также образовательных платформ, обслуживающих множество пользователей одновременно.

Игровая площадка для ИИ

Перед интеграцией протестируйте все модели API в тестовой среде. Мы предоставляем более 300 моделей для интеграции в ваше приложение.

Попробуйте бесплатно

Более 300 моделей ИИ для
OpenClaw и агенты искусственного интеллекта

Сэкономьте 20% на расходах