qwen-bg
max-ico04
出去
max-ico02
聊天
max-ico03
禁用
Deepgram Nova-2
Deepgram Nova-2 API 具有更高的准确性、多语言支持以及在各种应用程序中的快速转录功能。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_nova-2-general',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_nova-2-general",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
qwenmax-bg
图片
Deepgram Nova-2

产品详情

🚀 探索 Deepgram Nova-2:语音转文本的未来

Deepgram Nova-2 是一款突破性的自动语音识别 (ASR) 模型,由……设计。 迪普格拉姆 它能够为英语预录音频和实时流媒体音频提供无与伦比的精准度。它树立了行业新标杆,性能较其前代产品和竞争对手实现了显著提升。

模型亮点:

  • 型号名称: 新星-2
  • 开发者: 迪普格拉姆
  • 型号: 自动语音识别(ASR)

性能优势:

  • 准确率提高 18%。 比之前的Nova车型更胜一筹。
  • 🎯 提供 相对WER改善36% 基于 OpenAI Whisper(大型)。

💡 Nova-2 的主要特点

Nova-2 具备一系列旨在满足现代语音应用严苛要求的功能:

  • 🌐 多语言功能: 支持多种语言,扩大您的业务范围。
  • 📈 高准确率和低词错误率(WER): 实现卓越的转录质量。
  • 快速推理时间: 快速处理音频,适用于实时应用。
  • 💰 价格竞争力强: 享受经济高效的转录解决方案。

🎯 多功能应用和专业型号

Deepgram Nova-2 专为各种语音应用而设计,从实时转录到媒体分析。为了满足不同行业的各种需求,Nova-2 提供多个高度优化的版本:

通用模型和核心模型:

  • 新星-2 或者 nova-2-general: 适用于多个领域的通用模型。
  • nova-2-conversationalai: 非常适合对话式人工智能。
  • nova-2-video: 针对视频内容进行了优化。

行业特定优化:

  • nova-2-会议: 专为会议记录而设计。
  • nova-2-phonecall: 专门用于电话通话转录。
  • nova-2-finance: 专为金融领域量身定制。
  • nova-2-语音信箱: 非常适合用于语音留言。
  • nova-2-medical: 专门从事医疗转录,并取得了成功 准确率提高 16% 医学术语搜索速度为每分钟 120-180 个单词。了解更多关于人工智能在医疗保健领域的应用。 这里
  • nova-2-drivethru: 专为得来速系统开发。
  • nova-2-automotive: 专为汽车环境设计。

⚙️ Nova-2 技术解析

建筑学:

Nova-2 是建立在……之上的 尖端的基于Transformer的架构这种先进的设计显著提升了性能,从而带来…… 词错误率(WER)下降18.4% 与 Nova-1 相比,这些改进对于在现场和预录音频中高精度地转录实体(如专有名词)、标点符号和大小写至关重要。

训练数据:

该模型基于Deepgram迄今为止最广泛、最多样化的数据集进行训练,使用了近 600万资源和470亿Tokens该庞大的数据集包含大量高质量的人工转录文本,确保了稳健而准确的学习。

性能指标与速度:

Nova-2 在 WER 方面相比之前的型号和竞争对手有了显著提升。此外, 速度是一项关键优势Nova-2 的平均推理时间仅为 每小时29.8秒的日记音频这使得它 速度提高 5 到 40 倍 比其他提供拨号功能的供应商更胜一筹。

🛠️ 如何使用 Deepgram Nova-2

代码示例和SDK:

集成示例: 对于一般的转录需求,请使用带有 `data-model="#g1_nova-2-general"` 的 `voice.stt` 代码片段。

教程:

借助以下指南深入了解: NodeJS中的语音转文本多模态体验

技术限制:

  • 💾 最大文件大小: 2 GB
  • ⏱️ 速率限制: 100 个并发请求

⚖️ Nova-2 的伦理考量

Deepgram致力于负责任的AI开发。Nova-2遵循严格的道德准则:

  • 🔒 隐私与伦理人工智能: 严格遵守人工智能伦理开发原则,强调数据隐私和负责任的使用。
  • 🌍 偏见缓解: 持续努力确保在各种语音模式、口音和人口统计特征方面做到公平和准确。

❓ 关于 Deepgram Nova-2 的常见问题解答 (FAQ)

问:Deepgram Nova-2是什么?

答:Deepgram Nova-2 是一款最先进的自动语音识别 (ASR) 模型,专为对预录制和流媒体英语音频进行高精度语音转文本转录而设计。

问:Nova-2 与其他 ASR 模型(例如 OpenAI Whisper)相比如何?

答:Nova-2 的准确率比之前的 Deepgram Nova 模型提高了 18%,并且与 OpenAI Whisper(大型)相比,相对词错误率 (WER) 提高了 36%。

问:Nova-2是否有针对特定行业的专用版本?

答:是的,Deepgram Nova-2 提供了几个针对特定用例的优化版本,包括 `nova-2-meeting`、`nova-2-phonecall`、`nova-2-finance`、`nova-2-medical` 等,每个版本都针对其各自领域进行了优化,以实现最高的准确率。

问:Nova-2的主要技术优势是什么?

答:Nova-2 采用先进的基于 Transformer 的架构,与 Nova-1 相比,词错误率降低了 18.4%。它在包含 470 亿个标记的大型数据集上进行了训练,推理速度极快,比竞争对手的语音识别音频算法快 5 到 40 倍。

问:Deepgram 如何解决 Nova-2 的伦理问题?

答:Deepgram 优先考虑符合伦理的 AI 开发,致力于减少偏见、确保隐私,并通过持续努力和严格遵守准则,在各种语音模式和口音中保持公平性和准确性。

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用