在

出去

聊天

禁用

Deepgram Nova-2

Deepgram Nova-2 API 具有更高的准确性、多语言支持以及在各种应用程序中的快速转录功能。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_nova-2-general',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();

                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_nova-2-general",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

Deepgram Nova-2

产品详情

🚀 探索 Deepgram Nova-2：语音转文本的未来

Deepgram Nova-2 是一款突破性的自动语音识别 (ASR) 模型，由……设计。 迪普格拉姆 它能够为英语预录音频和实时流媒体音频提供无与伦比的精准度。它树立了行业新标杆，性能较其前代产品和竞争对手实现了显著提升。

模型亮点：

型号名称： 新星-2
开发者： 迪普格拉姆
型号： 自动语音识别（ASR）

性能优势：

✨ 准确率提高 18%。 比之前的Nova车型更胜一筹。
🎯 提供 相对WER改善36% 基于 OpenAI Whisper（大型）。

💡 Nova-2 的主要特点

Nova-2 具备一系列旨在满足现代语音应用严苛要求的功能：

🌐 多语言功能： 支持多种语言，扩大您的业务范围。
📈 高准确率和低词错误率（WER）： 实现卓越的转录质量。
⚡ 快速推理时间： 快速处理音频，适用于实时应用。
💰 价格竞争力强： 享受经济高效的转录解决方案。

🎯 多功能应用和专业型号

Deepgram Nova-2 专为各种语音应用而设计，从实时转录到媒体分析。为了满足不同行业的各种需求，Nova-2 提供多个高度优化的版本：

通用模型和核心模型：

新星-2 或者 nova-2-general： 适用于多个领域的通用模型。
nova-2-conversationalai： 非常适合对话式人工智能。
nova-2-video： 针对视频内容进行了优化。

行业特定优化：

nova-2-会议： 专为会议记录而设计。
nova-2-电话： 专门用于电话通话转录。
nova-2-finance： 专为金融领域量身定制。
nova-2-语音信箱： 非常适合用于语音留言。
nova-2-medical： 专门从事医疗转录，并取得了成功 准确率提高 16% 医学术语搜索速度为每分钟 120-180 个单词。了解更多关于人工智能在医疗保健领域的应用。这里。
nova-2-drivethru： 专为得来速系统开发。
nova-2-automotive： 专为汽车环境设计。

⚙️ Nova-2 技术解析

建筑学：

Nova-2 是建立在……之上的 尖端的基于Transformer的架构这种先进的设计显著提升了性能，从而带来…… 词错误率（WER）下降18.4% 与 Nova-1 相比，这些改进对于在现场和预录音频中高精度地转录实体（如专有名词）、标点符号和大小写至关重要。

训练数据：

该模型基于Deepgram迄今为止最广泛、最多样化的数据集进行训练，使用了近 600万资源和470亿Tokens该庞大的数据集包含大量高质量的人工转录文本，确保了稳健而准确的学习。

性能指标与速度：

Nova-2 在 WER 方面相比之前的型号和竞争对手有了显著提升。此外， 速度是一项关键优势Nova-2 的平均推理时间仅为 每小时29.8秒的日记音频这使得它 速度提高 5 到 40 倍 比其他提供拨号功能的供应商更胜一筹。

🛠️ 如何使用 Deepgram Nova-2

代码示例和SDK：

集成示例： 对于一般的转录需求，请使用带有 `data-model="#g1_nova-2-general"` 的 `voice.stt` 代码片段。

教程：

借助以下指南深入了解： NodeJS中的语音转文本多模态体验

技术限制：

💾 最大文件大小： 2 GB
⏱️ 速率限制： 100 个并发请求

⚖️ Nova-2 的伦理考量

Deepgram致力于负责任的AI开发。Nova-2遵循严格的道德准则：

🔒 隐私与伦理人工智能： 严格遵守人工智能伦理开发原则，强调数据隐私和负责任的使用。
🌍 偏见缓解： 持续努力确保在各种语音模式、口音和人口统计特征方面做到公平和准确。

❓ 关于 Deepgram Nova-2 的常见问题解答 (FAQ)

问：Deepgram Nova-2是什么？

答：Deepgram Nova-2 是一款最先进的自动语音识别 (ASR) 模型，专为对预录制和流媒体英语音频进行高精度语音转文本转录而设计。

问：Nova-2 与其他 ASR 模型（例如 OpenAI Whisper）相比如何？

答：Nova-2 的准确率比之前的 Deepgram Nova 模型提高了 18%，并且与 OpenAI Whisper（大型）相比，相对词错误率 (WER) 提高了 36%。

问：Nova-2是否有针对特定行业的专用版本？

答：是的，Deepgram Nova-2 提供了几个针对特定用例的优化版本，包括 `nova-2-meeting`、`nova-2-phonecall`、`nova-2-finance`、`nova-2-medical` 等，每个版本都针对其各自领域进行了优化，以实现最高的准确率。

问：Nova-2的主要技术优势是什么？

答：Nova-2 采用先进的基于 Transformer 的架构，与 Nova-1 相比，词错误率降低了 18.4%。它在包含 470 亿个标记的大型数据集上进行了训练，推理速度极快，比竞争对手的语音识别音频算法快 5 到 40 倍。

问：Deepgram 如何解决 Nova-2 的伦理问题？

答：Deepgram 优先考虑符合伦理的 AI 开发，致力于减少偏见、确保隐私，并通过持续努力和严格遵守准则，在各种语音模式和口音中保持公平性和准确性。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用