



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post(
'/tts',
{
model: '#g1_aura-2-amalthea-en',
text: 'Hi! What are you doing today?',
},
{ responseType: 'stream' },
);
const dist = path.resolve(__dirname, './audio.wav');
const writeStream = fs.createWriteStream(dist);
response.data.pipe(writeStream);
writeStream.on('close', () => console.log('Audio saved to:', dist));
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "#g1_aura-2-amalthea-en",
"text": "Hi! What are you doing today?",
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.join(os.path.dirname(__file__), "audio.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()

产品详情
🌟 Deepgram 的 Aura-2:企业级文本转语音卓越解决方案
Deepgram 的 Aura-2 是最先进的 文本转语音(TTS)解决方案 专为企业应用而设计。它具有以下特点。 实时、自然的语音合成 发音清晰无比,且具有精准的领域特定发音。
Aura-2 的设计兼顾灵活性,提供多种部署选项,包括云环境和本地环境,确保为语音代理、交互式语音应答 (IVR) 系统和高级 AI 对话等关键应用提供即时、上下文相关的语音创建。
⚙️ 技术规格
- ⚡延迟: 持续的
- 💻 推理技术: 采用 GPU 加速的流式优先架构,并结合量化和剪枝技术以提高效率。
- 📈 可扩展性: 无状态分布式运行时可实现快速、无瓶颈的扩展。
- 🔒 安全: 专为企业级部署和数据本地化合规性而设计。
📊 性能基准测试
- ✓ 达成 低于 200 毫秒的 TTFB 延迟 实现超快响应的对话流程。
- ✓ 实时因子 (RTF) 0.111x,在约 100 毫秒内生成 1 秒的音频。
- ✓ 支持数千个并发会话 持续低延迟 以及高质量的输出。
- ✓ 即使在高并发情况下也能保持最小的偏差和最低的最大延迟,这对于实时虚拟代理至关重要。
- ✓ 优于许多竞争对手 通过始终保持在 200 毫秒以下的对话阈值。
- ✓ 采用以下方式设计 GPU加速 并针对流式处理进行了优化,实现了快速推理。
- ✓ 可在云端、VPC 或本地灵活部署,以减少往返延迟并满足合规性要求。
- ✓ 无状态分布式运行时架构支持 快速扩展 以及高效的负载均衡。

💲 API 定价
💰 0.0315 美元/1000 个字符
✨ Aura-2 的主要特点
- ☀ 实时性能: 低于 200 毫秒的 TTFB 延迟确保对话自然流畅。
- ⏰ 快速音频生成: RTF 为 0.111x,合成 1 秒音频仅需 100 多毫秒。
- 🔍 领域特定准确率: 货币、日期、技术术语等发音精准。
- 💻 企业可扩展性: 支持数千个并发会话,延迟不增加。
- 📧 部署灵活性: 可通过 REST 和 WebSocket API 使用;可部署在私有云、VPC 或本地。
- 🎤 博德之声目录: 40 多种专业语音,适用于各种语境和语气。
- 🌐 多语言面向未来: 主要语言为英语,并计划支持多种语言。
🗣️ 型号变体概览:英语语音
Deepgram Aura-2 提供丰富的语音库,每种语音都针对特定的企业用途和语音特征进行了优化:
- aura-2-amalthea-en: 客服支持采用温暖、亲切的女性声音。
- aura-2-andromeda-one: 清晰、权威的男性声音,适合金融领域。
- aura-2-apollo-en: 充满活力、年轻时尚的男性声音,适用于市场营销和零售行业。
- aura-2-arcas-en: 沉稳、中性的男性声音,非常适合医疗保健领域的沟通。
- aura-2-aries-one: 用于技术支持的浑厚、自信的男性声音。
- aura-2-asteria-en: 温柔、亲切的女性声音,面向教育和培训领域。
- aura-2-athena-one: 为法律和企业界提供专业、清晰流畅的女性声音。
- aura-2-atlas-en: 低沉、稳定的男声,专为物流和运输行业设计。
- aura-2-aurora-en: 明亮、清晰的女声,适合媒体和广播行业。
- aura-2-callista-en: 用于客户互动的亲切、富有感染力的女性声音。
- aura-2-cora-en: 温暖友好的女性声音,非常适合客户互动和教育内容。
- aura-2-cordelia-en: 清晰专业的女声,非常适合企业培训和支持电话。
- aura-2-delia-en: 冷静、富有同理心的女性声音,专为医疗保健和健康应用而设计。
- aura-2-draco-en: 声音洪亮有力的男性嗓音,非常适合技术支持和金融服务行业。
- aura-2-electra-en: 充满活力、富有感染力的女性声音,适用于市场营销和零售推广。
- aura-2-harmonia-en: 均衡的女性声音,为语音助手提供清晰、舒缓的音调。
- aura-2-helena-one: 清晰流畅的女性嗓音,带有专业语气,适合法律和商业领域。
- aura-2-here-one: 自信的女性声音,非常适合用于教育和培训模块。
- aura-2-hermes-en: 清晰而权威的男性声音,适合高管沟通和公告。
- aura-2-hyperion-en: 低沉、稳定的男声,专为物流、运输和工业应用场景而设计。
- aura-2-iris-en: 为媒体和广播领域打造明亮动人的女性声音。
- aura-2-janus-one: 多用途男声,适用于多种企业应用。
- aura-2-juno-en: 用于客户服务和支持渠道的友好、亲切的女性声音。
- aura-2-jupiter-one: 浑厚自信的男声,专为金融和咨询服务而设计。
- aura-2-luna-one: 在医疗保健和个人辅导领域,柔和细腻的女性声音更受欢迎。
- aura-2-mars-en: 浑厚清晰的男声,专为技术和操作环境而设计。
- aura-2-minerva-one: 声音甜美、悦耳,适合培训和教育用途。
- aura-2-neptune-one: 沉稳的男声,非常适合冥想和健康类应用程序。
- aura-2-odysseus-en: 叙事风格的男性声音,专为讲故事和导览而设计。
- aura-2-ophelia-en: 温暖、富有同理心的女声,适用于服务行业。
- aura-2-orion-en: 浑厚有力的男性嗓音,适用于权威公告和工业场合。
- aura-2-orpheus-one: 柔和的男声,带有艺术气息,适合媒体和创意应用。
- aura-2-pandora-en: 专为市场营销和推广而打造的富有感染力的女性声音。
- aura-2-phoebe-one: 清晰、专业的女声,非常适合在线学习和企业沟通。
- aura-2-冥王星-一: 低沉的男声,气质沉稳,非常适合旁白和配音。
- aura-2-saturn-one: 浑厚有力的男性嗓音,专为客户支持和金融行业量身打造。
- aura-2-selene-one: 柔和的女声,非常适合用于健康、冥想和个人护理类应用程序。
- aura-2-thalia-en: 明亮而充满活力的女声,非常适合零售和促销内容。
- aura-2-theia-en: 适合医疗保健和法律领域的专业女声。
- aura-2-vesta-en: 清晰、语速稳定的女性嗓音,专为技术和客户服务岗位设计。
- aura-2-zeus-one: 极具威严、浑厚的男声,非常适合高管发布公告和进行演讲。
每个声音都经过精心设计,具有独特的音调特性和企业环境适用性,确保企业能够为其品牌形象和使用场景选择完美的声音。
🌍 西班牙语语音变体
- aura-2-celeste-es: 清晰友好的西班牙语女声,可与广大客户进行有效沟通。
- aura-2-star-es: 温暖而清晰的西班牙语女声,专为教育和媒体用途而设计。
- aura-2-nestor-es: 专为专业和企业环境设计的自信西班牙语男声。
🎯 常见用例
- 👤 实时对话语音人工智能代理
- 📞 交互式语音应答 (IVR) 系统
- 💬 客户支持自动化
- 📢 交易通知(提醒、通知)
- 🔍 需要准确发音的特定领域语音助手
- 🏠 敏感数据环境的本地部署
🆚 与其他型号的比较
Deepgram Aura-2 对比 ElevenLabs Flash
Aura-2 在以下方面表现出色 实时企业使用 凭借其始终低于 200 毫秒的延迟和灵活的部署方式(包括本地部署和 VPC),ElevenLabs Flash 表现出色。虽然 ElevenLabs Flash 提供非常快的生成速度(启动时间约为 75 毫秒),但它存在套餐限制且仅限云端使用。Aura-2 也大约 成本效益提高 40%。 适用于大规模商业运营。
Deepgram Aura-2 与 OpenAI TTS 对比
Aura-2 在各方面都超越了 OpenAI 的 TTS。 延迟性能即使在高并发情况下,也能保持低于 200 毫秒的稳定响应,这对于实时客服和交互式语音应答 (IVR) 至关重要。OpenAI 的文本转语音 (TTS) 优先考虑离线或媒体应用的语音表现力,牺牲了一些实时速度。Aura-2 的架构针对此进行了优化。 吞吐量和可扩展性 在要求严苛的企业环境中。
Deepgram Aura-2 对阵 Cartesia Sonic
Aura-2 提供了更实惠的单角色成本, 更低的延迟 与 Cartesia Sonic 相比,Aura-2 不仅支持分布式部署和本地部署,而且延迟更高(约 300 毫秒)。Cartesia Sonic 主要基于云端,延迟较高,因此 Aura-2 更适合需要快速、自然对话的场景。Aura-2 的专用运行时提供 降低大规模基础设施开销。
❓ 常见问题解答 (FAQ)
问:Aura-2 在人工智能模型领域有何独特之处?
答:Aura-2 是一款尖端的文本转语音解决方案,专为需要实时、自然语音合成的企业应用而设计。它的独特之处在于其卓越的清晰度、准确的领域发音、灵活的部署选项(云端或本地部署),以及即使在高并发情况下也能保持低于 200 毫秒的稳定延迟。
问:Aura-2 在实时语音合成方面有哪些具体功能?
答:Aura-2 的首字节响应时间 (TTFB) 低于 200 毫秒,实时系数 (RTF) 达到 0.111 倍,这意味着它只需 100 多毫秒即可生成 1 秒的音频。这确保了超快的响应速度和自然流畅的对话体验,这对实时语音客服和交互式语音应答 (IVR) 系统至关重要。
问:Aura-2 如何处理特定领域的发音?
答:Aura-2 专为货币、日期、技术术语、网址和地址等复杂术语而设计,具有卓越的发音准确性,使其成为对精度要求极高的专业企业应用的理想选择。
问:Deepgram Aura-2有哪些部署选项?
答:Aura-2 提供广泛的部署灵活性。它可以通过 REST 和 WebSocket API 访问,并且可以部署在公有云、私有虚拟私有云 (VPC) 或完全本地,以满足特定的安全性、合规性和延迟要求。
问:就大规模应用而言,Aura-2 的成本效益如何?
答:对于大规模商业应用而言,Aura-2 的成本效益尤为突出。例如,与 ElevenLabs Flash 等一些竞争对手相比,其每个字符的成本大约低 40%,同时还提供了卓越的延迟和部署灵活性,这对于企业需求至关重要。



登录