在

出去

聊天

禁用

光环2

Aura 2 具有高并发支持和经济高效的定价，可为金融、医疗保健和客户支持等行业提供无缝、清晰和响应迅速的语音 AI 交互。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const fs = require('fs');
const path = require('path');

const axios = require('axios').default;
const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post(
    '/tts',
    {
      model: '#g1_aura-2-amalthea-en',
      text: 'Hi! What are you doing today?',
    },
    { responseType: 'stream' },
  );

  const dist = path.resolve(__dirname, './audio.wav');
  const writeStream = fs.createWriteStream(dist);

  response.data.pipe(writeStream);

  writeStream.on('close', () => console.log('Audio saved to:', dist));
};

main();

                                        import os
import requests


def main():
    url = "https://api.ai.cc/v1/tts"
    headers = {
        "Authorization": "Bearer ",
    }
    payload = {
        "model": "#g1_aura-2-amalthea-en",
        "text": "Hi! What are you doing today?",
    }

    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.join(os.path.dirname(__file__), "audio.wav")

    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)

    print("Audio saved to:", dist)


main()

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

光环2

产品详情

🌟 Deepgram 的 Aura-2：企业级文本转语音卓越解决方案

Deepgram 的 Aura-2 是最先进的 文本转语音（TTS）解决方案 专为企业应用而设计。它具有以下特点。 实时、自然的语音合成 发音清晰无比，且具有精准的领域特定发音。

Aura-2 的设计兼顾灵活性，提供多种部署选项，包括云环境和本地环境，确保为语音代理、交互式语音应答 (IVR) 系统和高级 AI 对话等关键应用提供即时、上下文相关的语音创建。

⚙️ 技术规格

⚡延迟： 持续的
💻 推理技术： 采用 GPU 加速的流式优先架构，并结合量化和剪枝技术以提高效率。
📈 可扩展性： 无状态分布式运行时可实现快速、无瓶颈的扩展。
🔒 安全： 专为企业级部署和数据本地化合规性而设计。

📊 性能基准测试

✓ 达成 低于 200 毫秒的 TTFB 延迟 实现超快响应的对话流程。
✓ 实时因子 (RTF) 0.111x，在约 100 毫秒内生成 1 秒的音频。
✓ 支持数千个并发会话 持续低延迟 以及高质量的输出。
✓ 即使在高并发情况下也能保持最小的偏差和最低的最大延迟，这对于实时虚拟代理至关重要。
✓ 表现优于许多竞争对手 通过始终保持在 200 毫秒以下的对话阈值。
✓ 采用以下方式设计 GPU加速 并针对流式处理进行了优化，实现了快速推理。
✓ 可在云端、VPC 或本地灵活部署，以减少往返延迟并满足合规性要求。
✓ 无状态分布式运行时架构支持 快速扩展 以及高效的负载均衡。

在对延迟要求较高的企业环境中，Aura-2 的性能始终优于 ElevenLabs 和 OpenAI 的 TTS 解决方案等竞争对手。

💲 API 定价

💰 0.0315 美元/1000 个字符

✨ Aura-2 的主要特点

☀ 实时性能： 低于 200 毫秒的 TTFB 延迟确保对话自然流畅。
⏰ 快速音频生成： RTF 为 0.111x，合成 1 秒音频仅需 100 多毫秒。
🔍 领域特定准确率： 货币、日期、技术术语等发音精准。
💻 企业可扩展性： 支持数千个并发会话，延迟不增加。
📧 部署灵活性： 可通过 REST 和 WebSocket API 使用；可部署在私有云、VPC 或本地。
🎤 博德之声目录： 40 多种专业语音，适用于各种语境和语气。
🌐 多语言面向未来： 主要语言为英语，并计划支持多种语言。

🗣️ 型号变体概览：英语语音

Deepgram Aura-2 提供丰富的语音库，每种语音都针对特定的企业用途和语音特征进行了优化：

aura-2-amalthea-en: 客服支持采用温暖、亲切的女性声音。
aura-2-andromeda-one： 清晰、权威的男性声音，适合金融领域。
aura-2-apollo-en: 充满活力、年轻时尚的男性声音，适用于市场营销和零售行业。
aura-2-arcas-en: 沉稳、中性的男性声音，非常适合医疗保健领域的沟通。
aura-2-aries-one： 用于技术支持的浑厚、自信的男性声音。
aura-2-asteria-en: 温柔、亲切的女性声音，面向教育和培训领域。
aura-2-athena-one： 为法律和企业界提供专业、清晰流畅的女性声音。
aura-2-atlas-en: 低沉、稳定的男声，专为物流和运输行业设计。
aura-2-aurora-en: 明亮、清晰的女声，适合媒体和广播行业。
aura-2-callista-en: 用于客户互动的亲切、富有感染力的女性声音。
aura-2-cora-en: 温暖友好的女性声音，非常适合客户互动和教育内容。
aura-2-cordelia-en: 清晰专业的女声，非常适合企业培训和支持电话。
aura-2-delia-en: 冷静、富有同理心的女性声音，专为医疗保健和健康应用而设计。
aura-2-draco-en: 声音洪亮有力的男性嗓音，非常适合技术支持和金融服务行业。
aura-2-electra-en: 充满活力、富有感染力的女性声音，适用于市场营销和零售推广。
aura-2-harmonia-en: 均衡的女性声音，为语音助手提供清晰、舒缓的音调。
aura-2-helena-one： 清晰流畅的女性嗓音，带有专业语气，适合法律和商业领域。
aura-2-here-one： 自信的女性声音，非常适合用于教育和培训模块。
aura-2-hermes-en: 清晰而权威的男性声音，适合高管沟通和公告。
aura-2-hyperion-en: 低沉、稳定的男声，专为物流、运输和工业应用场景而设计。
aura-2-iris-en: 为媒体和广播领域打造明亮动人的女性声音。
aura-2-janus-one： 多用途男声，适用于多种企业应用。
aura-2-juno-en: 用于客户服务和支持渠道的友好、亲切的女性声音。
aura-2-jupiter-one： 浑厚自信的男声，专为金融和咨询服务而设计。
aura-2-luna-one： 在医疗保健和个人辅导领域，柔和细腻的女性声音更受欢迎。
aura-2-mars-en： 浑厚清晰的男声，专为技术和操作环境而设计。
aura-2-minerva-one： 声音甜美、悦耳，适合培训和教育用途。
aura-2-neptune-one： 沉稳的男声，非常适合冥想和健康类应用程序。
aura-2-odysseus-en: 叙事风格的男性声音，专为讲故事和导览而设计。
aura-2-ophelia-en: 温暖、富有同理心的女声，适用于服务行业。
aura-2-orion-en: 浑厚有力的男性嗓音，适用于权威公告和工业场合。
aura-2-orpheus-one： 柔和的男声，带有艺术气息，适合媒体和创意应用。
aura-2-pandora-en: 专为市场营销和推广而打造的富有感染力的女性声音。
aura-2-phoebe-one： 清晰、专业的女声，非常适合在线学习和企业沟通。
aura-2-冥王星-一： 低沉的男声，气质沉稳，非常适合旁白和配音。
aura-2-saturn-one： 浑厚有力的男性嗓音，专为客户支持和金融行业量身打造。
aura-2-selene-one： 柔和的女声，非常适合用于健康、冥想和个人护理类应用程序。
aura-2-thalia-en: 明亮而充满活力的女声，非常适合零售和促销内容。
aura-2-theia-en: 适合医疗保健和法律领域的专业女声。
aura-2-vesta-en: 清晰、语速稳定的女性嗓音，专为技术和客户服务岗位设计。
aura-2-zeus-one： 极具威严、浑厚的男声，非常适合高管发布公告和进行演讲。

每个声音都经过精心设计，具有独特的音调特性和企业环境适用性，确保企业能够为其品牌形象和使用场景选择完美的声音。

🌍 西班牙语语音变体

aura-2-celeste-es： 清晰友好的西班牙语女声，可与广大客户进行有效沟通。
aura-2-star-es： 温暖而清晰的西班牙语女声，专为教育和媒体用途而设计。
aura-2-nestor-es： 专为专业和企业环境设计的自信西班牙语男声。

🎯 常见用例

👤 实时对话语音人工智能代理
📞 交互式语音应答 (IVR) 系统
💬 客户支持自动化
📢 交易通知（提醒、通知）
🔍 需要准确发音的特定领域语音助手
🏠 敏感数据环境的本地部署

🆚 与其他型号的比较

Deepgram Aura-2 对比 ElevenLabs Flash

Aura-2 在以下方面表现出色 实时企业使用 凭借其始终低于 200 毫秒的延迟和灵活的部署方式（包括本地部署和 VPC），ElevenLabs Flash 表现出色。虽然 ElevenLabs Flash 提供非常快的生成速度（启动时间约为 75 毫秒），但它存在套餐限制且仅限云端使用。Aura-2 也大约 成本效益提高 40%。 适用于大规模商业运营。

Deepgram Aura-2 与 OpenAI TTS 对比

Aura-2 在各方面都超越了 OpenAI 的 TTS。 延迟性能即使在高并发情况下，也能保持低于 200 毫秒的稳定响应，这对于实时客服和交互式语音应答 (IVR) 至关重要。OpenAI 的文本转语音 (TTS) 优先考虑离线或媒体应用的语音表现力，牺牲了一些实时速度。Aura-2 的架构针对此进行了优化。 吞吐量和可扩展性 在要求严苛的企业环境中。

Deepgram Aura-2 对阵 Cartesia Sonic

Aura-2 提供了更实惠的单角色成本， 更低的延迟 与 Cartesia Sonic 相比，Aura-2 不仅支持分布式部署和本地部署，而且延迟更高（约 300 毫秒）。Cartesia Sonic 主要基于云端，延迟较高，因此 Aura-2 更适合需要快速、自然对话的场景。Aura-2 的专用运行时提供 降低大规模基础设施开销。

❓ 常见问题解答 (FAQ)

问：Aura-2 在人工智能模型领域有何独特之处？

答：Aura-2 是一款尖端的文本转语音解决方案，专为需要实时、自然语音合成的企业应用而设计。它的独特之处在于其卓越的清晰度、准确的领域发音、灵活的部署选项（云端或本地部署），以及即使在高并发情况下也能保持低于 200 毫秒的稳定延迟。

问：Aura-2 在实时语音合成方面有哪些具体功能？

答：Aura-2 的首字节响应时间 (TTFB) 低于 200 毫秒，实时系数 (RTF) 达到 0.111 倍，这意味着它只需 100 多毫秒即可生成 1 秒的音频。这确保了超快的响应速度和自然流畅的对话体验，这对实时语音客服和交互式语音应答 (IVR) 系统至关重要。

问：Aura-2 如何处理特定领域的发音？

答：Aura-2 专为货币、日期、技术术语、网址和地址等复杂术语而设计，具有卓越的发音准确性，使其成为对精度要求极高的专业企业应用的理想选择。

问：Deepgram Aura-2有哪些部署选项？

答：Aura-2 提供广泛的部署灵活性。它可以通过 REST 和 WebSocket API 访问，并且可以部署在公有云、私有虚拟私有云 (VPC) 或完全本地，以满足特定的安全性、合规性和延迟要求。

问：就大规模应用而言，Aura-2 的成本效益如何？

答：对于大规模商业应用而言，Aura-2 的成本效益尤为突出。例如，与 ElevenLabs Flash 等一些竞争对手相比，其每个字符的成本大约低 40%，同时还提供了卓越的延迟和部署灵活性，这对于企业需求至关重要。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用