在

出去

聊天

禁用

VibeVoice 1.5B

该模型支持对语调、语速、情感和语言进行精细控制，使其成为寻求高质量、可扩展语音生成解决方案的企业的理想选择。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const fs = require('fs');
const path = require('path');

const axios = require('axios').default;
const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  try {
    const response = await api.post('/tts', {
      model: 'microsoft/vibevoice-1.5b',
      script: 'Speaker 0: Hello there! Speaker 1: Hi, how are you?',
      speakers: [
        { preset: 'Frank [EN]' }
      ]
    });

    const responseData = response.data;
    const audioUrl = responseData.audio.url;
    const fileName = responseData.audio.file_name;

    const audioResponse = await api.get(audioUrl, { responseType: 'stream' });

    const dist = path.resolve(__dirname, fileName);
    const writeStream = fs.createWriteStream(dist);

    audioResponse.data.pipe(writeStream);

    writeStream.on('close', () => {
      console.log('Audio saved to:', dist);
      console.log(`Duration: ${responseData.duration} seconds`);
      console.log(`Sample rate: ${responseData.sample_rate} Hz`);
    });

  } catch (error) {
    console.error('Error:', error.message);
  }
};

main();

                                        import os
import requests


def main():
    url = "https://api.ai.cc/v1/tts"
    headers = {
        "Authorization": "Bearer ",
    }
    payload = {
        "model": "microsoft/vibevoice-1.5b",
        "script": "Speaker 0: Hello there! Speaker 1: Hi, how are you?",
        "speakers": [
            { "preset": "Frank [EN]" }
        ]
    }

    try:
        response = requests.post(url, headers=headers, json=payload)
        response.raise_for_status()  # Raise an exception for bad status codes

        response_data = response.json()
        audio_url = response_data["audio"]["url"]
        file_name = response_data["audio"]["file_name"]

        audio_response = requests.get(audio_url, stream=True)
        audio_response.raise_for_status()

        dist = os.path.join(os.path.dirname(__file__), file_name)

        with open(dist, "wb") as write_stream:
            for chunk in audio_response.iter_content(chunk_size=8192):
                if chunk:
                    write_stream.write(chunk)

        print("Audio saved to:", dist)
        print(f"Duration: {response_data['duration']} seconds")
        print(f"Sample rate: {response_data['sample_rate']} Hz")

    except requests.exceptions.RequestException as e:
        print(f"Error making request: {e}")
    except Exception as e:
        print(f"Error: {e}")


main()

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

VibeVoice 1.5B

产品详情

VibeVoice 1.5B 具有开创性意义 人工智能语音合成模型精心设计，旨在交付 高质量、自然流畅的语音它拥有卓越的 富有表现力的音调变化它能够完美适应各种语言和场景。这款高度可扩展且功能强大的解决方案为内容创作者、开发者和企业提供先进的语音生成功能，适用于包括虚拟助手、有声读物、游戏和多媒体制作在内的各种应用。

✨ 主要功能和输入方式多样性

VibeVoice 1.5B 能够巧妙地处理各种输入类型，生成语调细腻、栩栩如生的语音，确保其能够适应任何项目。它支持：

✓ 纯文本：用于生成简单直接的语音。
✓ SSML（语音合成标记语言）：能够对语音属性（如停顿、发音和语调）进行精细控制。
✓ 情感/风格标签：在输出内容中融入特定的情感和独特的说话风格。

该模型能够巧妙地处理 对话、旁白和角色配音赋予声音动态的语调，使每一句话听起来都像真人说话一样自然。

🚀 无与伦比的性能和输出质量

⏳ 延迟：针对以下方面进行了优化 近乎实时的语音生成VibeVoice 1.5B 非常适合聊天机器人和直播等交互式应用，可确保即时流畅的沟通。
🎧 音频质量：它持续产出 录音棚级音频它以清晰的发音、自然的语调和流畅的过渡为特点，使其成为对音频保真度要求极高的专业应用和消费级应用的理想之选。
💬 表现力：该模型提供了对以下方面的精细控制： 情感基调、重音、节奏和口音调整这种灵活性使用户能够完美地将语音输出与特定的叙事要求和品牌需求相匹配。

🧠 高级技术架构

VibeVoice 1.5B 构建于一个复杂的系统之上。 基于Transformer的神经文本到语音（TTS）骨干网络它融合了先进的韵律建模模块，利用多层自注意力机制和专门针对时间声学特征提取优化的卷积层。该模型的卓越性能源于在大量数据集上的训练。 庞大的多语种语音录音语料库 并提供了丰富的带注释的情感语音数据集，确保了对各种说话人和风格的稳健泛化能力。

💲 API 定价

💰 每分钟生成成本为 0.042 美元

⭐核心功能概览

📝 多模态输入处理：它接受多种输入格式，包括嵌入情感线索和精确音素级指令的文本内容，从而对合成语音提供无与伦比的控制。
🎧 富有表现力的语音定制：能够对关键语音属性进行详细调整，例如音调、语速、情感基调和细微的说话人身份变化，从而使声音与您的创意愿景完美契合。
🌐 多语言和多方言支持：能够以多种语言和地区方言提供始终如一的自然语音输出，保持高保真语音质量，实现真正的全球覆盖。

💡 多样化的应用

👤虚拟助手和聊天机器人：促进引人入胜、人性化的互动，增强客户支持和数字化陪伴。
📚 有声书和播客旁白：创造具有鲜明角色差异和情感的动态配音表演，使故事生动鲜活。
🎮 游戏与动画：创造具有广泛风格灵活性的逼真角色配音，有助于打造身临其境的故事叙述和游戏体验。
📖 辅助功能工具：提供高质量、可自定义表现力的屏幕阅读器语音，显著提升所有用户的体验。
🌎 内容本地化：支持多语言快速、自然的语音配音，轻松支持全球内容分发和更广泛的受众覆盖。

📝 代码示例

// VibeVoice 1.5B API 使用示例
const textToSynthesize = "你好，这里是 VibeVoice 1.5B 语音！";
const voiceParams = {
型号：“microsoft/vibevoice-1.5b”，
语言："en-US"
情绪：“喜悦”
};
VibeVoice.synthesize(textToSynthesize, voiceParams)
.then(audioUrl => console.log("生成的音频：", audioUrl))
.catch(error => console.error("语音合成出错：", error));

📈 VibeVoice 1.5B 与竞争对手对比

vs. Eleven Music： Eleven Music 专注于人工智能驱动的音乐生成，并具备复杂的作曲能力，而 VibeVoice 1.5B 则以其卓越的音乐创作能力脱颖而出。 自然且富有表现力的语音合成专门用于语音音频。
对阵 Suno AI： 与Suno AI专注于音乐生成功能相比，VibeVoice 1.5B的核心优势在于其 卓越的语音质量，无与伦比的韵律控制，和 多语种语音播报是为对话语境而非音乐内容精心设计的。
对比分享： Udio 通常面向功能有限的简单音频制作，而 VibeVoice 则提供显著的语音合成功能。 更高保真度，更细致的情感变化以及针对专业语音生成需求量身定制的更广泛的应用支持。
vs. MusicAI Sandbox： MusicAI Sandbox 主要面向音乐创作实验。与之形成鲜明对比的是，VibeVoice 1.5B 则优先考虑…… 逼真的语音输出为各种不同的嗓音特点和风格提供高级微调选项。
对比 AIMusic.fm： AIMusic.fm 在很大程度上实现了音乐创作的自动化，但自定义选项有限。VibeVoice 提供 对语音参数的精细控制 以及广泛的风格适应性，专为以演讲为中心的项目量身定制。

☝ 常见问题解答 (FAQ)

1. VibeVoice 1.5B 采用何种神经声码器架构来实现富有表现力的语音合成？

VibeVoice 1.5B 采用了一种 高效的流动匹配扩散架构该架构经过精心优化，在15亿参数规模下，能够最大限度地提升情感表达和语音质量。其采用分层波形生成技术，可捕捉宏观韵律模式和微音调细节，并结合风格自适应归一化技术，确保说话者在各种情绪状态下都能保持鲜明的个性特征。

2. 该模型如何在有限的参数预算内实现情感表达？

该模型通过以下方式实现了高效的情感韵律建模： 提炼出的情感嵌入这些方法无需大量参数开销即可捕捉不同情绪状态的声学特征。结合共享的情绪特征提取器和优化的音高/时序网络，可以实现令人印象深刻的情绪表达范围。

3. VibeVoice 1.5B 提供哪些语音自定义功能？

VibeVoice 1.5B 通过以下方式提供高效的语音自适应： 小样本学习 它基于有限的音频样本和高效的参数微调技术，用户可以调整包括音调、语速和情感强度在内的语音属性。此外，它还支持从参考音频进行风格迁移和基本的口音自适应，同时保持计算效率。

4. VibeVoice 1.5B 如何针对不同的部署场景平衡质量和效率？

该模型采用 智能资源分配它将计算资源集中用于语音生成中最具感知意义的方面，包括自适应质量扩展、高效的注意力机制和优化的音频处理流程。这种均衡的方法确保了在从云实例到边缘设备等各种部署环境中都能保持卓越的性能。

5. VibeVoice 1.5B 的高效设计在哪些实际应用中最为有利？

其高效性使其特别适用于以下应用： 移动语音助手、计算资源有限的嵌入式系统、多租户云服务 需要经济高效的语音生成、具有严格延迟要求的实时交互式应用程序以及服务于众多同时用户的教育平台。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用