qwen-bg
max-ico04
出去
max-ico02
聊天
max-ico03
禁用
光环2
Aura 2 具有高并发支持和经济高效的定价,可为金融、医疗保健和客户支持等行业提供无缝、清晰和响应迅速的语音 AI 交互。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        const fs = require('fs');
const path = require('path');

const axios = require('axios').default;
const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post(
    '/tts',
    {
      model: '#g1_aura-2-amalthea-en',
      text: 'Hi! What are you doing today?',
    },
    { responseType: 'stream' },
  );

  const dist = path.resolve(__dirname, './audio.wav');
  const writeStream = fs.createWriteStream(dist);

  response.data.pipe(writeStream);

  writeStream.on('close', () => console.log('Audio saved to:', dist));
};

main();

                                
                                        import os
import requests


def main():
    url = "https://api.ai.cc/v1/tts"
    headers = {
        "Authorization": "Bearer ",
    }
    payload = {
        "model": "#g1_aura-2-amalthea-en",
        "text": "Hi! What are you doing today?",
    }

    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.join(os.path.dirname(__file__), "audio.wav")

    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)

    print("Audio saved to:", dist)


main()
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
qwenmax-bg
图片
光环2

产品详情

🌟 Deepgram 的 Aura-2:企业级文本转语音卓越解决方案

Deepgram 的 Aura-2 是最先进的 文本转语音(TTS)解决方案 专为企业应用而设计。它具有以下特点。 实时、自然的语音合成 发音清晰无比,且具有精准的领域特定发音。

Aura-2 的设计兼顾灵活性,提供多种部署选项,包括云环境和本地环境,确保为语音代理、交互式语音应答 (IVR) 系统和高级 AI 对话等关键应用提供即时、上下文相关的语音创建。

⚙️ 技术规格

  • ⚡延迟: 持续的
  • 💻 推理技术: 采用 GPU 加速的流式优先架构,并结合量化和剪枝技术以提高效率。
  • 📈 可扩展性: 无状态分布式运行时可实现快速、无瓶颈的扩展。
  • 🔒 安全: 专为企业级部署和数据本地化合规性而设计。

📊 性能基准测试

  • ✓ 达成 低于 200 毫秒的 TTFB 延迟 实现超快响应的对话流程。
  • ✓ 实时因子 (RTF) 0.111x,在约 100 毫秒内生成 1 秒的音频。
  • ✓ 支持数千个并发会话 持续低延迟 以及高质量的输出。
  • ✓ 即使在高并发情况下也能保持最小的偏差和最低的最大延迟,这对于实时虚拟代理至关重要。
  • 优于许多竞争对手 通过始终保持在 200 毫秒以下的对话阈值。
  • ✓ 采用以下方式设计 GPU加速 并针对流式处理进行了优化,实现了快速推理。
  • ✓ 可在云端、VPC 或本地灵活部署,以减少往返延迟并满足合规性要求。
  • ✓ 无状态分布式运行时架构支持 快速扩展 以及高效的负载均衡。
Deepgram Aura-2 性能对比
在对延迟要求较高的企业环境中,Aura-2 的性能始终优于 ElevenLabs 和 OpenAI 的 TTS 解决方案等竞争对手。

💲 API 定价

💰 0.0315 美元/1000 个字符

✨ Aura-2 的主要特点

  • 实时性能: 低于 200 毫秒的 TTFB 延迟确保对话自然流畅。
  • 快速音频生成: RTF 为 0.111x,合成 1 秒音频仅需 100 多毫秒。
  • 🔍 领域特定准确率: 货币、日期、技术术语等发音精准。
  • 💻 企业可扩展性: 支持数千个并发会话,延迟不增加。
  • 📧 部署灵活性: 可通过 REST 和 WebSocket API 使用;可部署在私有云、VPC 或本地。
  • 🎤 博德之声目录: 40 多种专业语音,适用于各种语境和语气。
  • 🌐 多语言面向未来: 主要语言为英语,并计划支持多种语言。

🗣️ 型号变体概览:英语语音

Deepgram Aura-2 提供丰富的语音库,每种语音都针对特定的企业用途和语音特征进行了优化:

  • aura-2-amalthea-en: 客服支持采用温暖、亲切的女性声音。
  • aura-2-andromeda-one: 清晰、权威的男性声音,适合金融领域。
  • aura-2-apollo-en: 充满活力、年轻时尚的男性声音,适用于市场营销和零售行业。
  • aura-2-arcas-en: 沉稳、中性的男性声音,非常适合医疗保健领域的沟通。
  • aura-2-aries-one: 用于技术支持的浑厚、自信的男性声音。
  • aura-2-asteria-en: 温柔、亲切的女性声音,面向教育和培训领域。
  • aura-2-athena-one: 为法律和企业界提供专业、清晰流畅的女性声音。
  • aura-2-atlas-en: 低沉、稳定的男声,专为物流和运输行业设计。
  • aura-2-aurora-en: 明亮、清晰的女声,适合媒体和广播行业。
  • aura-2-callista-en: 用于客户互动的亲切、富有感染力的女性声音。
  • aura-2-cora-en: 温暖友好的女性声音,非常适合客户互动和教育内容。
  • aura-2-cordelia-en: 清晰专业的女声,非常适合企业培训和支持电话。
  • aura-2-delia-en: 冷静、富有同理心的女性声音,专为医疗保健和健康应用而设计。
  • aura-2-draco-en: 声音洪亮有力的男性嗓音,非常适合技术支持和金融服务行业。
  • aura-2-electra-en: 充满活力、富有感染力的女性声音,适用于市场营销和零售推广。
  • aura-2-harmonia-en: 均衡的女性声音,为语音助手提供清晰、舒缓的音调。
  • aura-2-helena-one: 清晰流畅的女性嗓音,带有专业语气,适合法律和商业领域。
  • aura-2-here-one: 自信的女性声音,非常适合用于教育和培训模块。
  • aura-2-hermes-en: 清晰而权威的男性声音,适合高管沟通和公告。
  • aura-2-hyperion-en: 低沉、稳定的男声,专为物流、运输和工业应用场景而设计。
  • aura-2-iris-en: 为媒体和广播领域打造明亮动人的女性声音。
  • aura-2-janus-one: 多用途男声,适用于多种企业应用。
  • aura-2-juno-en: 用于客户服务和支持渠道的友好、亲切的女性声音。
  • aura-2-jupiter-one: 浑厚自信的男声,专为金融和咨询服务而设计。
  • aura-2-luna-one: 在医疗保健和个人辅导领域,柔和细腻的女性声音更受欢迎。
  • aura-2-mars-en: 浑厚清晰的男声,专为技术和操作环境而设计。
  • aura-2-minerva-one: 声音甜美、悦耳,适合培训和教育用途。
  • aura-2-neptune-one: 沉稳的男声,非常适合冥想和健康类应用程序。
  • aura-2-odysseus-en: 叙事风格的男性声音,专为讲故事和导览而设计。
  • aura-2-ophelia-en: 温暖、富有同理心的女声,适用于服务行业。
  • aura-2-orion-en: 浑厚有力的男性嗓音,适用于权威公告和工业场合。
  • aura-2-orpheus-one: 柔和的男声,带有艺术气息,适合媒体和创意应用。
  • aura-2-pandora-en: 专为市场营销和推广而打造的富有感染力的女性声音。
  • aura-2-phoebe-one: 清晰、专业的女声,非常适合在线学习和企业沟通。
  • aura-2-冥王星-一: 低沉的男声,气质沉稳,非常适合旁白和配音。
  • aura-2-saturn-one: 浑厚有力的男性嗓音,专为客户支持和金融行业量身打造。
  • aura-2-selene-one: 柔和的女声,非常适合用于健康、冥想和个人护理类应用程序。
  • aura-2-thalia-en: 明亮而充满活力的女声,非常适合零售和促销内容。
  • aura-2-theia-en: 适合医疗保健和法律领域的专业女声。
  • aura-2-vesta-en: 清晰、语速稳定的女性嗓音,专为技术和客户服务岗位设计。
  • aura-2-zeus-one: 极具威严、浑厚的男声,非常适合高管发布公告和进行演讲。

每个声音都经过精心设计,具有独特的音调特性和企业环境适用性,确保企业能够为其品牌形象和使用场景选择完美的声音。

🌍 西班牙语语音变体

  • aura-2-celeste-es: 清晰友好的西班牙语女声,可与广大客户进行有效沟通。
  • aura-2-star-es: 温暖而清晰的西班牙语女声,专为教育和媒体用途而设计。
  • aura-2-nestor-es: 专为专业和企业环境设计的自信西班牙语男声。

🎯 常见用例

  • 👤 实时对话语音人工智能代理
  • 📞 交互式语音应答 (IVR) 系统
  • 💬 客户支持自动化
  • 📢 交易通知(提醒、通知)
  • 🔍 需要准确发音的特定领域语音助手
  • 🏠 敏感数据环境的本地部署

🆚 与其他型号的比较

Deepgram Aura-2 对比 ElevenLabs Flash

Aura-2 在以下方面表现出色 实时企业使用 凭借其始终低于 200 毫秒的延迟和灵活的部署方式(包括本地部署和 VPC),ElevenLabs Flash 表现出色。虽然 ElevenLabs Flash 提供非常快的生成速度(启动时间约为 75 毫秒),但它存在套餐限制且仅限云端使用。Aura-2 也大约 成本效益提高 40%。 适用于大规模商业运营。

Deepgram Aura-2 与 OpenAI TTS 对比

Aura-2 在各方面都超越了 OpenAI 的 TTS。 延迟性能即使在高并发情况下,也能保持低于 200 毫秒的稳定响应,这对于实时客服和交互式语音应答 (IVR) 至关重要。OpenAI 的文本转语音 (TTS) 优先考虑离线或媒体应用的语音表现力,牺牲了一些实时速度。Aura-2 的架构针对此进行了优化。 吞吐量和可扩展性 在要求严苛的企业环境中。

Deepgram Aura-2 对阵 Cartesia Sonic

Aura-2 提供了更实惠的单角色成本, 更低的延迟 与 Cartesia Sonic 相比,Aura-2 不仅支持分布式部署和本地部署,而且延迟更高(约 300 毫秒)。Cartesia Sonic 主要基于云端,延迟较高,因此 Aura-2 更适合需要快速、自然对话的场景。Aura-2 的专用运行时提供 降低大规模基础设施开销

❓ 常见问题解答 (FAQ)

问:Aura-2 在人工智能模型领域有何独特之处?

答:Aura-2 是一款尖端的文本转语音解决方案,专为需要实时、自然语音合成的企业应用而设计。它的独特之处在于其卓越的清晰度、准确的领域发音、灵活的部署选项(云端或本地部署),以及即使在高并发情况下也能保持低于 200 毫秒的稳定延迟。

问:Aura-2 在实时语音合成方面有哪些具体功能?

答:Aura-2 的首字节响应时间 (TTFB) 低于 200 毫秒,实时系数 (RTF) 达到 0.111 倍,这意味着它只需 100 多毫秒即可生成 1 秒的音频。这确保了超快的响应速度和自然流畅的对话体验,这对实时语音客服和交互式语音应答 (IVR) 系统至关重要。

问:Aura-2 如何处理特定领域的发音?

答:Aura-2 专为货币、日期、技术术语、网址和地址等复杂术语而设计,具有卓越的发音准确性,使其成为对精度要求极高的专业企业应用的理想选择。

问:Deepgram Aura-2有哪些部署选项?

答:Aura-2 提供广泛的部署灵活性。它可以通过 REST 和 WebSocket API 访问,并且可以部署在公有云、私有虚拟私有云 (VPC) 或完全本地,以满足特定的安全性、合规性和延迟要求。

问:就大规模应用而言,Aura-2 的成本效益如何?

答:对于大规模商业应用而言,Aura-2 的成本效益尤为突出。例如,与 ElevenLabs Flash 等一些竞争对手相比,其每个字符的成本大约低 40%,同时还提供了卓越的延迟和部署灵活性,这对于企业需求至关重要。

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用