在

出去

聊天

禁用

GPT-4o 迷你转录

其先进的预训练和强化学习技术使其成为语音代理、呼叫中心和交互式音频应用程序中实时转录的理想选择。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: 'openai/gpt-4o-mini-transcribe',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();

                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "openai/gpt-4o-mini-transcribe",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

GPT-4o 迷你转录

产品详情

🎙️ 推出 GPT-4o Mini 转录 API

这 GPT-4o 迷你转录 API 来自 OpenAI 的一项突破性成果 语音转文本模型 专为实现卓越的精度和无与伦比的效率而设计。作为 GPT-4o 转录模型的轻量级、快速迭代版本，它针对特定用途进行了专门优化。 低延迟 降低资源消耗，同时保持卓越的转录质量。对于寻求更高转录质量的开发人员来说，此 API 是理想的解决方案。 快速可靠的语音识别 在各种复杂多变的声学环境中。

⚙️ 技术规格

型号： 语音转文本转录模型
架构基础： 基于 GPT-4o-mini 架构，并在专门的音频数据集上进行预训练
令牌上下文窗口： 支持长达 16,000 个标记的音频输入上下文窗口
最大输出Tokens数： 每次转录输出最多 2,000 个词元
训练数据： 包含各种口音、噪声环境和语速的多样化、高质量音频数据集
训练技巧： 通过监督式微调和强化学习来最大限度地降低词错误率和幻觉

📊 性能基准

词错误率（WER）： 与早期的 Whisper 模型和类似基线相比，性能显著提升。
可靠性： 在嘈杂的环境中，能够稳定地识别各种口音和语速的语音。
语言识别： 增强了跨多种语言的准确性和语言理解能力

✨ 主要特点

效率： 轻量级模型，推理速度快，可实现快速转录。
鲁棒性： 能够出色地处理具有挑战性的音频输入，包括背景噪音、各种口音和语音变化。
可扩展性： 由于其拥有 16,000 个标记的上下文窗口，因此能够转录冗长的音频输入而不会丢失上下文。
流媒体功能： 支持连续音频流传输和实时转录。
可定制集成： 旨在与各种应用程序无缝集成，例如语音代理、呼叫中心、转录服务和会议管理工具。

💸 GPT-4o 迷你转录 API 定价

成本： 每百万个输入令牌0.63美元

🎯 实际应用案例

客户服务： 通话转录和分析，以改进服务和提供更深入的见解。
生产率： 会议和研讨会的自动笔记系统。
语音助手： 为语音助手和语音代理提供转录功能。
专业转录： 提供法律和医疗听写服务。

💻 代码示例

⚖️ 与其他型号的比较

与 GPT-4o 转录

这 GPT-4o 迷你转录 擅长 低延迟应用 在速度至关重要的场景下，GPT-4o 转录模型则更适合于此。 对精度要求极高的环境 例如法律或医疗转录，即使是微小的错误也可能造成重大影响。

与 OpenAI Whisper-Large 相比

GPT-4o 迷你转录 在以下方面展现出优于 Whisper-Large 的性能： 词错误率（WER） 和 流媒体延迟这一优势主要归功于其先进的强化学习技术和专门的音频训练。虽然 Whisper 是一款更通用的模型，但在处理嘈杂的音频或带有口音的语音时，其处理速度通常会变慢，精度也会降低。

对阵 Eleven Labs Scribe

这两款机型在流媒体转录方面都表现出色。根据一些第三方测试，Eleven Labs Scribe 在某些准确率基准测试中可能与 GPT-4o Mini Transcribe 持平或略胜一筹。然而， GPT-4o Mini 的速度 及其与……的无缝集成 OpenAI 的庞大生态系统 仍保持显著的竞争优势。

❓ 常见问题解答 (FAQ)

Q1：GPT-4o Mini Transcribe API 的设计用途是什么？

一个： 它专为高精度、高效率的语音转文本转录而设计，针对低延迟和资源消耗进行了优化，使其成为实时应用程序和需要快速、可靠的音频处理的开发人员的理想选择。

Q2：它与完整的 GPT-4o 转录模型相比如何？

一个： GPT-4o Mini Transcribe 优先考虑速度和效率，适用于低延迟应用，而完整的 GPT-4o Transcribe 则专注于最大程度的准确性，适用于法律或医疗转录等关键应用。

Q3：GPT-4o Mini Transcribe 能否处理嘈杂的音频或不同的口音？

一个： 是的，它具备强大的性能，能够在复杂的声学环境中可靠地运行，有效处理背景噪音、各种口音和不同的语速。

Q4：此 API 的主要使用场景是什么？

一个： 主要应用场景包括客户服务电话转录和分析、会议记录、语音助手支持以及法律和医疗听写等专业服务。

Q5：是否支持流媒体转录？

一个： 当然。GPT-4o Mini Transcribe 支持连续音频流，并提供实时转录功能。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用