



const axios = require('axios').default;
const api = axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/tts', {
model: 'hume/octave-2',
text: 'OpenAI TTS are fast and powerful language models. Use it to convert text to natural sounding spoken text.',
voice: 'coral',
});
console.log('Audio URL:', response.data.audio.url);
console.log('Characters:', response.data.usage.characters);
};
main();
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "hume/octave-2",
"text": "OpenAI TTS are fast and powerful language models. Use it to convert text to natural sounding spoken text.",
"voice": "coral"
}
response = requests.post(url, headers=headers, json=payload)
data = response.json()
print("Audio URL:", data["audio"]["url"])
print("Characters:", data["usage"]["characters"])
main()

产品详情
🚀 Octave 2:新一代基于LLM的文本转语音技术
Octave 2 代表了文本转语音 (TTS) 技术的重大飞跃。它由先进的大型语言模型 (LLM) 提供支持,超越了简单的文本转换,能够深入理解语音内容。 情感和语义上的细微差别 文本处理。这种智能使 Octave 2 能够实时生成富有表现力、类人语音,为各种应用中的语音质量和响应速度树立了新的标准。
Octave 2 设计用途广泛,可提供业界领先的音频性能。 超低延迟 它还支持多种语言,使其成为从动态对话式人工智能到沉浸式有声读物等各种应用的理想选择。
⚙️ 技术规格
- ✓ 支持的语言: 英语、日语、韩语、西班牙语、法语、葡萄牙语、意大利语、德语、俄语、印地语、阿拉伯语
- ✓ 延迟: 非常低,仅为约 100 毫秒。
- ✓ 语音克隆: 仅需约 15 秒的音频输入即可支持
- ✓ 音频格式: MP3、WAV、PCM
📈 性能基准测试
- 📈 Octave 2 交付 音频生成速度提升 40% 与前代产品 Octave 1 相比,延迟始终低于 200 毫秒。
- 🎉 在一项涉及 180 位人类评测者的盲听测试中,Octave 2 比 ElevenLabs Voice Design 更胜一筹。 音频质量(71.6%), 天然度(51.7%)以及匹配的语音描述(57.7%)。
- 💬 该模型擅长处理复杂的语音模式和微妙的情感变化,显著增强了整体的自然度和表现力。
✨ Octave 2 的主要功能
- 💡 法学硕士赋能的情感理解: 与传统的 TTS 不同,Octave 2 能够解读含义和情感意图,通过调节音高、速度和重音来精确匹配上下文。
- 📣 超低延迟: 体验实时语音合成,模型延迟低至~100毫秒,非常适合交互式和对话式应用。
- 🌐 多语言支持: 能流利自然地运用 11 种主要语言进行综合表达,包括英语、日语、韩语、西班牙语、法语、葡萄牙语、意大利语、德语、俄语、印地语和阿拉伯语。
- 📚 长篇幅的多样性: 在有声读物和播客等较长的内容中保持一致的情感基调和角色声音,并能无缝适应场景变化。
- ⚙ 高级功能: 包括语音转换、直接音素编辑,以及对不常用单词、数字和符号的可靠发音。
💰 Octave 2 API 定价
简单透明的定价: 每千个字符 0.063 美元。
🎯 多样化的应用场景
- 👤 对话式人工智能与交互式代理: 为聊天机器人、虚拟助手和客户服务提供实时、具有情感感知能力的语音。
- 🎧 有声读物和播客: 高质量、长篇叙事,情感基调一致,角色声音塑造到位。
- 🎨语音克隆和自定义语音: 为品牌推广、媒体制作和无障碍解决方案提供个性化语音创建服务。
- 🎮 游戏与动画: 生动的人物对话,细腻的情感表达,使虚拟世界栩栩如生。
- 📞 电话和交互式语音应答系统: 为自动电话系统提供快速、自然的提示和回复,从而提升用户体验。
- 💪 辅助工具: 增强屏幕阅读器和语音辅助工具,使其具备情感和语境语音理解能力,从而实现更广泛的包容性。
🆚 Octave 2 与主流 TTS 模型对比
了解 Octave 2 与其他主流文本转语音解决方案相比有何独特之处:
对阵 ElevenLabs: Octave 2 利用 LLM 智能技术实现更深层次的情感和语义理解,从而生成更细腻的语音,且延迟极低(约 100 毫秒)。虽然 ElevenLabs 提供自然且富有表现力的语音,但通常缺乏 Octave 2 的高级语义理解能力和更广泛的多语言支持。
对比 OpenAI 文本转语音: OpenAI 的文本转语音 (TTS) 功能在清晰度、韵律控制和通过提示实现的灵活语音风格方面表现出色。Octave 2 在此基础上,集成了语义层面的情感意图识别功能,从而显著提升了语音的表达力和语境深度,使其更接近人类。
对比 Mozilla TTS: Mozilla TTS 具有高度可定制性,适用于研究和自定义语音构建。然而,作为一款基于 LLM 的商业级系统,Octave 2 提供卓越的开箱即用语音质量、更快的合成速度、更自然的情感变化和实时响应能力。
vs. 话匣子: Chatterbox 针对低延迟对话和可配置的表达能力进行了优化,并能以较小的规模高效地进行语音克隆。Octave 2 在语义理解、情感深度、长文本一致性和全面的多语言功能方面均优于 Chatterbox,可提供更丰富的实时语音体验。
❓ 常见问题解答 (FAQ)
问:Octave 2 与其他文本转语音系统有何不同?
答:Octave 2 采用大型语言模型 (LLM) 的独特技术,能够理解文本的情感和语义背景,实时生成更具表现力和更像人类的语音,这与传统的 TTS 模型不同。
问:Octave 2 语音生成的延迟有多低?
答:Octave 2 具有超低延迟,可实现实时语音合成,模型延迟低至约 100 毫秒,使其成为交互式应用的理想选择。
问:Octave 2 可以支持多种语言吗?
答:是的,Octave 2 提供 11 种语言的流畅合成,包括英语、日语、韩语、西班牙语、法语、葡萄牙语、意大利语、德语、俄语、印地语和阿拉伯语。
问:Octave 2 是否适合制作有声读物等长篇内容?
答:当然。Octave 2 专为长篇内容而设计,能够保持音频书籍和播客等长篇内容的情感一致性,并能无缝适应角色和场景的变化。
问:Octave 2 API 的定价结构是怎样的?
答:Octave 2 API 的定价极具竞争力,每生成 1000 个字符仅需 0.063 美元。



登录