



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
try {
const response = await api.post('/tts', {
model: 'microsoft/vibevoice-7b',
script: 'Speaker 0: Hello there! Speaker 1: Hi, how are you?',
speakers: [
{ preset: 'Frank [EN]' }
]
});
const responseData = response.data;
const audioUrl = responseData.audio.url;
const fileName = responseData.audio.file_name;
const audioResponse = await api.get(audioUrl, { responseType: 'stream' });
const dist = path.resolve(__dirname, fileName);
const writeStream = fs.createWriteStream(dist);
audioResponse.data.pipe(writeStream);
writeStream.on('close', () => {
console.log('Audio saved to:', dist);
console.log(`Duration: ${responseData.duration} seconds`);
console.log(`Sample rate: ${responseData.sample_rate} Hz`);
});
} catch (error) {
console.error('Error:', error.message);
}
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "microsoft/vibevoice-7b",
"script": "Speaker 0: Hello there! Speaker 1: Hi, how are you?",
"speakers": [
{ "preset": "Frank [EN]" }
]
}
try:
response = requests.post(url, headers=headers, json=payload)
response.raise_for_status() # Raise an exception for bad status codes
response_data = response.json()
audio_url = response_data["audio"]["url"]
file_name = response_data["audio"]["file_name"]
audio_response = requests.get(audio_url, stream=True)
audio_response.raise_for_status()
dist = os.path.join(os.path.dirname(__file__), file_name)
with open(dist, "wb") as write_stream:
for chunk in audio_response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
print(f"Duration: {response_data['duration']} seconds")
print(f"Sample rate: {response_data['sample_rate']} Hz")
except requests.exceptions.RequestException as e:
print(f"Error making request: {e}")
except Exception as e:
print(f"Error: {e}")
main()

产品详情
✨ VibeVoice 7B是一款突破性的AI 语音合成模型,旨在生成极其自然、富有表现力且能感知语境的语音。对于开发者、内容创作者以及寻求跨领域多功能语音功能的企业而言,VibeVoice 7B 是理想之选,其应用领域涵盖媒体、虚拟助手、游戏、教育和辅助技术等。VibeVoice 7B 利用先进的深度神经网络架构,提供可定制的语音角色,并赋予其丰富的情感层次和精准的语言表达。
技术能力与输入灵活性
✅模型输入类型
VibeVoice 7B 支持多种输入格式,包括纯文本、用于精细语音控制的SSML(语音合成标记语言)以及用于微调语调、语速和节奏的韵律参数。这使得用户能够对语音输出进行精细控制,完美适应各种场景和用户偏好。
💭输入长度和上下文感知
该模型能够处理较长的对话输入,同时保持很强的上下文连贯性。这使得它特别适用于动态对话、叙事故事和复杂的多轮互动。
性能和输出质量指标
- ⏱实时语音生成: VibeVoice 7B 针对快速响应进行了优化,能够以接近实时的速度生成高保真语音,非常适合实时聊天机器人和虚拟角色等交互式应用。
- 🎧音频保真度:它能提供清晰透彻、录音棚级别的语音输出,音色丰富,韵律自然,语音细节精准。该模型的神经声码器确保了流畅、无失真的音频合成。
- 🎭语音风格多样性:支持各种语音风格、口音和情感语调——从欢快活泼到平静专业——使品牌能够打造独特的听觉形象。
模型架构与创新
- 🧩混合式基于Transformer的设计: VibeVoice 7B采用Transformer骨架,并增强了专门针对语音特征定制的注意力机制。这种混合式设计擅长捕捉长程语言依赖关系和韵律模式。
- 😍情感与表现力调制:先进的嵌入向量模拟情感状态和说话者意图,实现远超传统机器人语音的表现力语音合成。
- 🌍强大的训练数据集:在涵盖不同人口统计特征、口音和说话风格的广泛多语言数据集上进行训练,确保对不同语言和领域具有高度适应性。
核心功能及使用场景
- 🧑🗨️自定义语音角色创建:用户可以通过微调语音风格、音调和情感参数来生成个性化的语音变体。这非常适合交互式语音应用和独特的音频内容。
- 🌆多领域应用:广泛适用于有声读物旁白、视频和广告配音、游戏角色配音、视障人士辅助工具以及高级对话式人工智能系统。
💸 API 定价
-
每分钟生成费用为 0.042 美元——价格实惠且透明。
VibeVoice 7B 的主要应用场景
- 🤖交互式虚拟助手和聊天机器人:赋予 AI 角色丰富、可信的声音个性,使其能够根据对话流程调整语气,从而增强用户参与度。
- 🎥媒体与娱乐配音制作:无需昂贵的录音棚录音即可生成各种角色配音和场景,简化制作流程。
- 💻无障碍和辅助技术:创建声音自然的屏幕阅读器和沟通辅助工具,以支持情感表达,从而显著改善视障用户的体验。
- 📚教育工具:通过清晰、富有表现力的发音和可定制的节奏,促进语言学习和言语治疗应用,使学习更有效、更有趣。
代码示例
(注:此处仅为占位符,实际代码片段或 API 集成示例将在此处显示。)
与主流语音合成模型的比较分析
🔊与 ElevenLabs (ElevenVoice) 对比:虽然 ElevenLabs 在多模态输入集成和广泛的风格迁移方面表现出色,但 VibeVoice 7B 以其卓越的情感表达能力和对实时交互的适用性脱颖而出,在韵律和上下文语音适应方面提供了更精细的粒度。
🔊与Google文本转语音 (TTS) 对比:Google的 TTS 解决方案提供广泛的语言支持和强大的集成功能,但通常侧重于通用性。而 VibeVoice 7B 则提供更丰富的情感表达和高级个性化语音创建功能,使其成为创意内容和品牌专属语音应用的首选。
🔊与 Amazon Polly 对比: Amazon Polly 是一个功能强大的平台,支持可扩展部署和多语言。然而,VibeVoice 7B 在提供动态、富有表现力的语调变化和实现更高保真度的自然度方面优于它,能够更有效地模拟人类语音的细微差别。
🔊与 Microsoft Azure Speech Service 对比: Azure Speech 侧重于企业级部署和转录协同。VibeVoice 7B 的核心优势在于其能够动态调整语音的表现力和风格,使其特别适合叙事和对话式用户体验。
常见问题解答 (FAQ)
❓ VibeVoice 7B 的语音合成为何能达到录音棚级品质?
VibeVoice 7B 采用复杂的级联扩散架构和多尺度声码器处理技术。这确保了卓越的保真度、自然度和全面的声学特性,既能捕捉到宽泛的韵律模式,又能捕捉到细微的人声差别。
❓ 7B 参数量表如何增强情感表达能力?
扩展后的 7B 参数预算支持复杂的情感建模、细微的韵律变化和精细的频谱建模。它集成了专用的情感编码器和先进的音高/时序控制,使语音具有卓越的情感深度和音质。
❓ VibeVoice 7B 提供哪些语音自定义功能?
用户可以精准控制情感表达,利用有限的样本进行高保真语音克隆,并对音调、音色和说话特点进行精细调整。高级功能包括叙事情感弧线设定和口音/方言自适应。
❓ VibeVoice 7B 能否处理复杂的叙事和戏剧性朗读任务?
是的,该模型展现了高水平的叙事理解能力,包括恰当的节奏把控、对话中人物声音的区分、贯穿故事的情感发展以及戏剧化的演绎。其上下文感知韵律模型能够根据叙事结构调整表达方式。
❓哪些专业应用最能从 VibeVoice 7B 中受益?
有声读物制作、视频游戏对话、动画内容、广告配音、教育内容和虚拟助手交互等专业应用都从其录音棚级的输出质量和广泛的创作控制中受益匪浅。



登录