



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: 'aai/slam-1',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "aai/slam-1",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()
- API 操练场(Playground)

在集成之前,请在沙箱环境中测试所有 API 模型。
我们提供 300 多种模型供您集成到您的应用程序中。


产品详情
猛击-1 代表 AssemblyAI 的突破性成果 语音语言模型(SLM)独特设计,旨在统一 大型语言模型架构 先进 自动语音识别(ASR)编码器这种强强联合可带来卓越的性能。 语音转文本转录准确性Slam-1 专为语音任务而设计,能够深入理解语境和语义,从而实现 可快速响应且高度可定制的转录它能够智能地适应专业行业术语和复杂的口语内容,使其成为关键应用场景的理想解决方案。 医疗保健、法律、销售和技术领域 需要精确的、具有上下文感知能力的转录。
技术规格
性能基准
✅ 最多可降低漏报率 66%尤其是对于人名、医学术语和技术术语。
✅ 减少了大约 50% 的格式错误 20%。
✅ 超过 72% 在盲测中,最终用户对竞争模型的评价。
✅ 实现了更可靠的转录质量 嘈杂且专业的环境。
✅ 通过以下方式增强抵抗幻觉的能力: 多模态架构 能够同时处理音频和语言。
架构分解
Slam-1 的架构独特地融合了…… 语音编码器 一个 适配器层 经过精确调校,可将声学特征与固定值联系起来。 大型语言模型这使得语义理解能力得以显著提升。这种多模态设计超越了传统的音频转文本模型,它能够对语音内容进行整体解读,从而支持…… 准确的转录和上下文推理该方法利用了 提示工程 根据行业特定词汇和语音模式动态定制转录准确性。
API定价
立即开始,只需支付少量费用 每分钟 0.002625 美元
核心特性与功能
✨ 言语和语言融合: 无缝结合语音编码器和LLM 可提示和可定制的转录工作流程。
⚙️ 微调与定制: 启用 领域特定适应 通过简单的提示,无需进行复杂的再培训。
🎯 高精度: 对罕见术语和特定领域术语具有卓越的识别能力, 显著提升下游分析能力并减少人工审核工作量。
🗣️ 多声道和说话人分割: 完全支持复杂的音频流 开箱即用,提供精确的扬声器分离度和时间戳。。
🏢 企业级应用: 专门设计用于减少后期处理工作量和 提高高风险行业的转录质量 例如医疗保健和法律。
代码示例
与其他型号的比较
VS AssemblyAI Universal: Slam-1 的独特之处在于 可快速响应、高度可定制的转录功能,针对特定领域具有卓越的实体识别能力相比之下,AssemblyAI Universal 针对更广泛的语言支持和更低的延迟进行了优化,以满足一般的转录需求。
VS GPT-4.1(音频转录用途): Slam-1 是专门设计并高度优化的 语音转文本功能,融合了强大的多通道和说话人分割功能另一方面,GPT-4.1 主要专注于一般的自然语言处理 (NLP) 任务,缺乏全面转录所必需的原生音频处理能力。
常见问题解答 (FAQ)
问: Slam-1 在众多语音转文本解决方案中独树一帜,其独特之处是什么?
一个: Slam-1 的独特之处在于其创新的架构,该架构将语音编码器与大型语言模型 (LLM) 融为一体。这种集成使其能够深入理解上下文和语义,从而显著提高准确率,并支持针对复杂和专业内容的可提示、可定制转录,其性能优于传统的自动语音识别 (ASR) 系统。
问: Slam-1 如何确保专业术语的高精度识别?
一个: Slam-1 利用其快速工程技术和语言学习模型 (LLM) 功能,能够动态适应特定行业的词汇。这使得用户能够自定义模型,以极高的精度识别罕见名称、医学术语、法律术语和技术短语,而无需进行大量的重新训练,从而显著降低实体识别失败率。
问: 哪些行业最能受益于Slam-1的功能?
一个: 需要精准且能感知上下文的转录服务的行业将从中受益匪浅。这些行业包括医疗保健(用于医疗听写和患者记录)、法律(用于法庭诉讼和证词录制)、销售(用于通话分析)以及技术领域(用于详细的技术讨论和文档编写)。在这些高风险环境中,Slam-1 的高精度和定制化功能至关重要。
问: Slam-1 是否支持多人音频转录?
一个: 是的,Slam-1 内置了多声道和说话人分离功能。这意味着它可以准确地分离复杂音频流中的不同说话人,并为每位说话人的发言提供时间戳,使其成为会议、采访和其他多人参与录音的理想选择。
问: Slam-1 是如何解决转录“幻觉”问题的?
一个: Slam-1 的多模态架构旨在增强其抗幻觉能力。通过同时处理音频和语言数据,它可以交叉引用并验证声学特征信息与语义理解之间的关系,从而显著降低转录结果中出现不准确或捏造内容的可能性。



登录