qwen-bg
max-ico04
出去
max-ico02
聊天
max-ico03
禁用
普遍的
Universal 旨在与各种语音转文本工作流程无缝集成,从而能够在多种语言和音频条件下实现准确高效的转录。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: 'aai/universal',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "aai/universal",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
qwenmax-bg
图片
普遍的

产品详情

AssemblyAI 的 Universal 系列代表了巅峰之作 语音转文本 (STT) 这项技术旨在将口语转化为高度准确且易于理解的文本。这些先进的模型经过精心训练,数据量超过…… 1250万小时的多种语言音频数据这使它们能够在复杂的真实对话环境中表现出色。它们能够以极高的保真度巧妙地处理多位说话者、各种口音和复杂的背景噪音。

技术规格

  • ✓ 建筑: Universal-1 利用了 对准编码器 与…… 循环神经网络转换器(RNN-T) 该型号,兼顾速度和精度。
  • ✓ 编码器详情: 该模型具有用于 4 倍子采样、位置编码的卷积层和 24 个 Conformer 层,总计约 6亿个参数每个 Conformer 模块都利用分块注意力机制处理 8 秒的音频片段,以加快处理速度并增强对不同音频长度的鲁棒性。
  • ✓ 解码器: 它包含一个两层 LSTM 预测器和一个连接器,采用 WordPiece 分词器 基于大量多语言语料库进行训练。
  • ✓ 并行处理: 专为高度并行化的编码器计算而设计,可实现 大规模、低延迟推理非常适合实时应用。
  • ✓ 时间戳: 确保精确的时间对齐,从而保证准确性 词级时间戳估计

📈 性能基准

  • ✓ 最先进的WER: 达到行业领先水平 英语单词错误率(WER)其性能优于众多商业 ASR 提供​​商和开源模型,包括 OpenAI 的 Whisper Large-v3 和 NVIDIA 的 Canary-1B。
  • ✓ 增强的稳健性: 在电话通信和其他具有挑战性的声学环境中,展现出卓越的抗噪能力和强大的性能。
  • ✓ 多语言能力: 显示出具有竞争力的WER 西班牙语、法语和德语 数据集展现出强大的跨语言能力。
  • ✓ 质量提升: 人工评估揭示了 60% 偏好 与上一代 Conformer-2 相比,Universal-1 转录本表现出显著的转录质量提升。

💰 API定价

每分钟 0.004725 美元

📣 核心特性与功能

  • ✓ 高精度转录: 提供精确的转录,包括 标点符号、大小写和高级文本格式
  • ✓ 说话人分割: 智能识别和区分 个别发言人 在音频中。
  • ✓ 高级实体识别: 准确识别和转录 专有名词和字母数字内容 (例如,电话号码、电子邮件地址)。
  • ✓ 实时处理: 优惠 低延迟实时转录 具有卓越的可扩展性和效率。
  • ✓ 定制和微调: 提供灵活的选择 微调和定制 以满足各种企业使用场景的需求。
  • ✓ 符合伦理的人工智能: 整合了严谨的策略 偏见缓解、内容安全和幻觉减少

💻 代码示例

🔗 与其他型号的比较

► 通用型与 GPT-5 型

尽管 GPT-5 拥有高达 40 万个词元的上下文窗口。 它具备先进的层级推理能力,非常适合大规模语言理解和生成,但与 Universal 相比,它不太适合实时语音转录处理。Universal 专为高精度语音转录而设计。

► 通用型与 GPT-4.1 型

GPT-4.1 擅长编码任务 并且支持在较小的上下文窗口中进行结构化代码操作。虽然它针对开发者场景进行了优化,但却缺乏 AssemblyAI Universal 的核心功能——广泛的语音识别和多模态集成能力。

► Universal 与 OpenAI o3 对比

OpenAI o3 主要服务于传统代理任务。 它具备基本的图像理解能力。与 AssemblyAI Universal 相比,它的延迟更高,多模态推理准确率更低,因此在现代实时转录和多模态应用中效果较差。

📜 常见问题解答

1. AssemblyAI Universal 在语音转文本技术领域有哪些突出优势?

AssemblyAI Universal之所以表现出色,是因为它基于超过10 ... 1250万小时的多语言音频数据这使得它能够高精度地处理复杂的现实世界场景,包括多个说话者、不同的口音和大量的背景噪音。

2. Universal-1 的关键技术组成部分是什么?

Universal-1 采用了一种 对准编码器 有24层,大约 6亿个参数结合 RNN-T模型它采用分块注意力机制以加快处理速度,并配备两层 LSTM 解码器和 WordPiece 分词器。

3. 与其他领先的 ASR 模型相比,Universal 的性能如何?

环球影业 英语中最先进的词错误率 (WER)其性能超越了 OpenAI 的 Whisper Large-v3 和 NVIDIA 的 Canary-1B 等模型。此外,它在西班牙语、法语和德语中也展现出了具有竞争力的词错误率 (WER),证明了其强大的跨语言鲁棒性。

4. AssemblyAI Universal 提供哪些独特的功能?

除了高精度转录之外,它还提供 说话人分割准确识别 专有名词和字母数字内容低延迟实时转录并且灵活 自定义选项 供企业使用。

5. Universal 是否适用于实时应用?

是的,环球影城的建筑设计就是专门为了…… 高度并行计算 并使其能够 大规模、低延迟推理因此,它非常适合实时转录和需要立即处理的应用。

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用