



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post(
'/tts',
{
model: 'elevenlabs/eleven_multilingual_v2',
text: 'Hi! What are you doing today?',
voice: 'Alice'
},
{ responseType: 'stream' },
);
const dist = path.resolve(__dirname, './audio.wav');
const writeStream = fs.createWriteStream(dist);
response.data.pipe(writeStream);
writeStream.on('close', () => console.log('Audio saved to:', dist));
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "elevenlabs/eleven_multilingual_v2",
"text": "Hi! What are you doing today?",
"voice": "Alice"
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.join(os.path.dirname(__file__), "audio.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()

产品详情
介绍 Eleven Multilingual v2一款突破性的人工智能模型,经过精心设计,旨在实现无与伦比的卓越性能 多语言理解、生成和翻译任务. 该强大的系统提供广泛的语言支持,以非凡的保真度和敏锐的上下文感知能力呈现内容。
🔧 技术规格和性能基准
Eleven Multilingual v2 为人工智能驱动的语言处理树立了新的行业标准。其强大的技术基础确保了所有支持语言的高质量、可靠输出:
- ✅ 天然性(MOS): 获得了令人瞩目的 4.7/5.0 平均意见得分 跨越多种语言,表明语音听起来非常自然。
- ✅ 可理解性: 确保 单词准确率 >98% 提供所有支持的语言,保证清晰易懂的音频。
- ✅ 语音相似度(嵌入距离): 保持低 平均余弦距离为 0.22 (数值越低表示声音复制越接近人声),以实现一致的语音克隆。
- ✅ 语言准确性: 交付 95-98% 母语水平发音 涵盖多种主要语言,细致入微地捕捉文化细微差别和口音。
💡 Eleven Multilingual v2 的主要功能
- 自然多语言语音: 生成流畅、符合文化语调、节奏和口音都像母语人士一样自然的语音,确保您的内容能够真实地引起全球受众的共鸣。
- 富有表现力的语音控制: 通过简单的文本提示或 API 参数,轻松调整语气、情绪(例如,快乐、悲伤、兴奋)和重点,实现动态且引人入胜的故事讲述。
- 实时流媒体: 支持低延迟流媒体,非常适合智能语音助手、实时游戏和直播内容生成等交互式应用。
- 自定义语音创建: 只需极少的训练数据即可创建独特的、品牌化的或克隆的声音,从而提供无与伦比的个性化和品牌一致性。
💰 灵活透明的定价
体验高级多语言语音合成服务,仅需 0.189美元 每1000个字符!
提供经济高效的解决方案,满足您所有的多语言语音需求。
🌍 Eleven Multilingual v2 的最佳使用场景
利用 Eleven Multilingual v2 的强大功能,在各个行业和应用领域开启新的可能性:
- 🎦 全球内容本地化: 轻松翻译视频、电子学习模块和应用程序,并用自然、地道的声音进行配音,支持多种语言。
- 🤖 交互式人工智能代理: 赋予多语言聊天机器人、虚拟助手和客户服务化身以跨越语言障碍进行流畅、富有同理心的沟通的能力。
- 🎧 有声读物和播客: 用多种语言创作富有表现力的长篇叙述,显著丰富听众的体验。
- 🎮 游戏与动画: 为角色提供动态、实时的语音,增强沉浸感,扩大游戏的全球影响力。
- 💻 辅助功能工具: 提供高质量的屏幕阅读器和语音界面,使视障用户能够广泛访问数字内容。
💻 代码示例(集成参考)
对于开发者而言,Eleven Multilingual v2 的集成设计非常简单。以下是调用该模型的一个典型示例:
🔄 Eleven Multilingual v2 如何从竞争对手中脱颖而出
Eleven Multilingual v2 相较于其他领先的文本转语音模型,具有以下几个关键优势:
- 与 Google WaveNet(多语言版)对比: 提供更出色的表现力(4.7 对 4.3 MOS),提供更广泛的语言支持(29+ 对 15),并提供增强的语音克隆功能。
- 与 Amazon Polly(神经系统)对比: 具有更高的自然度和更广的情感范围;支持更多语言和实时流媒体播放,延迟显著降低。
- 与微软 Azure 神经 TTS 的对比: 在低资源语言中展现出更一致的韵律;具有更快的推理速度和更简单的开发者 API 集成。
- 与 Meta 的 MMS-TTS 相比: 提供卓越的音频保真度和高级语音定制选项;获得商业许可,可广泛部署,确保多功能性。
⚠️ 重要注意事项(局限性)
虽然 Eleven Multilingual v2 功能非常强大,但用户仍应注意某些操作限制:
- 语言切换: 在很长的内容中快速切换语言时,可能会出现口音混淆的问题,从而导致发音不一致。
- 可变处理时间: 语音合成的处理时间会因所使用的具体语言和文本的复杂程度而有所波动。
- 音频质量不稳定: 在所支持的多种语言中,整体音频质量可能会略有差异。
- 字数限制: 该模型每次请求最多支持 10,000 个字符,这可能会对超长的单次请求语音合成任务造成限制。
❓ 常见问题解答 (FAQ)
Eleven Multilingual v2 是什么?它有哪些改进?
Eleven Multilingual v2 是一款先进的 AI 文本转语音模型,能够生成高度自然、富有表现力的多语言语音。其主要改进包括:提升语音质量、扩展语言支持、增强情感表达,以及更逼真的语音模式,能够捕捉人类对话中的细微差别。
Eleven Multilingual v2 支持哪些语言?它对重音的处理效果如何?
该模型支持多种语言,包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、印地语、中文、日语、韩语等等。它能以惊人的准确度处理地区口音和方言,调整发音和语调模式,使其听起来像母语人士一样地道,同时保持一致的语音特征。
这种多语言文本转语音技术有哪些实际应用?
实际应用包括多语言有声读物和播客制作、电子学习和教育内容本地化、具有自然语音的客户服务和 IVR 系统、视频游戏角色对话以及面向视障用户的辅助工具。
Eleven Multilingual v2 与同类 TTS 系统相比如何?
Eleven Multilingual v2 在语音自然度、情感表达范围和语言覆盖方面均有显著提升。它凭借更一致的跨语言音质、更出色的复杂句式处理能力、更自然流畅的对话体验以及卓越的语音克隆功能,在与其他领先的文本转语音 (TTS) 系统竞争中脱颖而出。



登录