



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: '#g1_whisper-large',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "#g1_whisper-large",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()
- API 操练场(Playground)

在集成之前,请在沙箱环境中测试所有 API 模型。
我们提供 300 多种模型供您集成到您的应用程序中。


产品详情
理解 OpenAI 的 Whisper 模型:全面概述
这 耳语模型由……开发 OpenAIWhisper 代表了自动语音识别 (ASR) 和语音翻译技术的一项关键性进步。Whisper 模型面向公众发布,旨在促进人工智能研究,其设计注重鲁棒性、泛化能力,并能识别人工智能系统中潜在的偏差。它们在英语语音识别方面尤其有效,但也具备强大的多语言能力。
重要提示: 由于可能出现不准确和伦理问题,强烈不建议在未经同意的录音或高风险决策环境中使用 Whisper 模型进行转录。
基本信息与演变
- 型号名称: 耳语
- 开发者: OpenAI
- 发布历史: 原剧集将于2022年9月播出,随后是
大型 v22022年12月,以及大型 v32023年11月。 - 型号: 序列到序列的自动语音识别(ASR)和语音翻译模型。
Whisper 型号版本概述
| 尺寸 | 参数 | 相对速度 |
|---|---|---|
| 微小的 | 39个月 | 约32倍 |
| 根据 | 74米 | 约16倍 |
| 小的 | 244米 | 约6倍 |
| 中等的 | 769 米 | 约2倍 |
| 大的 | 1550 米 | 1倍 |
Whisper 型号的主要特点 ⭐
- ✓ 多语言功能: 在约 10 种语言中表现出色,目前正在评估其在语音检测和说话人分类等更广泛应用方面的潜力。
- ✓ 稳健性: 对各种口音、方言和嘈杂的音频环境具有极强的适应能力。
- ✓ 应用广泛: 非常适合语音转录、语言翻译和自动字幕生成。
预期用途 🚀
Whisper 型号主要面向 开发人员和研究人员它们是将高级语音转文本功能集成到各种应用程序中、增强辅助功能以及支持语言研究计划的宝贵工具。
技术细节 ⚙️
建筑学:
Whisper 模型建立在复杂的 Transformer架构该架构在包含监督学习和非监督学习数据的大型数据集上进行了预训练,从而能够进行稳健的特征学习。
训练数据:
训练过程使用了海量的68万小时互联网音频及其对应的文字稿。该数据集经过精心平衡:
- ‣ 65% 英语音频,附带英文文本。
- ‣ 18% 非英语音频,附英文文本。
- ‣ 17% 非英语音频及相应的非英语文本。
训练数据总共涵盖了 98 种不同的语言。
绩效指标及考量因素:
研究表明,Whisper 模型通常优于许多现有的自动语音识别 (ASR) 系统,对口音、背景噪声和专业技术语言具有更强的鲁棒性。它们在语音识别和从多种语言到英语的零样本翻译方面,都达到了近乎最先进的准确率。
然而,不同语言的性能差异可能很大,尤其是在资源匮乏或研究较少的语言中。准确率也可能因口音、方言和人口统计群体而异。模型有时会生成重复文本,这种特性通常可以通过束搜索和温度调度等技术来缓解。
知识门槛:
用于训练 Whisper 模型的音频和文本数据不包含 2022 年中期以后的信息。
使用与集成 💻
- 代码示例/SDK: 开发者可以通过提供的 SDK 和代码示例访问 Whisper 的功能,并将其集成到自己的应用程序中。
- 教程: 浏览指南,例如: NodeJS中的语音转文本多模态体验 提供实际应用方面的见解。
- 最大文件大小: 目前音频文件处理的限制为 2 GB。
支持与社区 💬
- 社区资源: 加入讨论,获取支持。 Discord AIML API 服务器。
- 支持渠道: 报告问题或直接通过官方渠道做出贡献 OpenAI Whisper GitHub 仓库。
伦理考量与许可 ⚖️
- ⚠ 道德准则: OpenAI 提供了关于负责任使用的全面指导,强调了隐私和人工智能技术合乎道德的部署的重要性。
- ⚠ 偏见缓解: 目前正在不断努力减少不同语言、口音和人口群体在语音识别准确率方面的偏差。
- ⓘ 许可证类型: Whisper 模型是根据以下条款发布的: MIT许可证允许商业用途和非商业用途。
参考 📖
- 了解更多相关研究信息: Whisper:基于大规模弱监督的鲁棒语音识别
常见问题解答 (FAQ)
问题1:OpenAI 的 Whisper 模型的主要目的是什么?
A1:Whisper 模型是一款先进的自动语音识别 (ASR) 和语音翻译模型,主要用于人工智能研究,例如模型的鲁棒性、泛化能力和偏差分析。它在英语语音识别方面也表现出色,并具备强大的多语言功能。
Q2:Whisper 模型的主要应用有哪些?
A2:它可以用于各种任务,包括语音转录、将口语翻译成文本以及为音频和视频内容生成字幕。
Q3:Whisper 支持多少种语言?
A3:这些模型使用涵盖 98 种语言的数据进行训练,在约 10 种语言中表现出色,而在其他语言中准确率则有所不同。
Q4:使用 Whisper 是否存在任何伦理问题?
A4:是的,OpenAI 强烈不建议将其用于转录未经同意的录音或用于高风险决策过程,因为可能存在不准确和隐私问题。建议用户遵循 OpenAI 的伦理准则。
Q5:Whisper 模型是开源的吗?
A5:是的,Whisper 模型以 MIT 许可证发布,允许开发者和研究人员进行商业和非商业用途。



登录