



import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const response = await api.chat.completions.create({
model: 'alibaba/qwen3-omni-30b-a3b-captioner',
messages: [
{
role: 'user',
content: [
{
type: 'input_audio',
input_audio: {
data: 'https://cdn.ai.cc/eagle/files/elephant/cJUTeeQmpodIV1Q3MWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3'
}
}
]
}
],
});
console.log(response.choices[0].message.content);
};
main();
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="alibaba/qwen3-omni-30b-a3b-captioner",
messages=[
{
"role": "user",
"content": [
{
"type": "input_audio",
"input_audio": {
"data": "https://cdn.aimlapi.com/eagle/files/elephant/cJUTeeQmpodIV1Q3MWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3"
}
}
]
},
],
)
print(response.choices[0].message.content)
- API 操练场(Playground)

在集成之前,请在沙箱环境中测试所有 API 模型。
我们提供 300 多种模型供您集成到您的应用程序中。


产品详情
揭晓 Qwen3-Omni 字幕器:一款多语言全模态人工智能强机
发现 Qwen3-Omni 字幕机这是阿里云最先进的、原生端到端多语言全模态基础模型。它旨在重新定义人工智能交互,能够无缝处理各种输入,包括 文本、图像、音频和视频这款创新模型能够以自然文本和语音两种格式提供实时流式响应,并在所有模态下保持卓越的性能,不会出现质量下降。Qwen3-Omni 是一款领先的多模态人工智能解决方案,提供无与伦比的功能。
⚙️技术深度解析
- 思考者-演说者架构: 这种独特的设计巧妙地将文本生成( 思想首页来自实时语音合成( 健谈者这使得针对这两个不同任务的处理能够高度专业化和高效。
- 超低延迟流媒体: Talker 组件采用自回归方法预测多码本序列。其多标记预测器 (MTP) 模块输出当前音频帧的残差码本,然后由 Code2Wav 渲染器将其逐步合成波形。这一复杂的过程确保了 无缝、实时音频输出。
- AuT音频编码器: 为了增强模型的音频处理能力,AuT编码器经过精心训练,并基于广泛的数据集进行处理。 2000万小时的音频数据这种大规模训练提供了极其强大且具有普适性的音频特征提取方法。
- 教育部建筑: 思考者和说话者子系统都是基于 专首页混合(教育部) 模型。这种架构通过仅激活每个标记的部分参数,实现了高并发性和快速推理,从而显著提高了效率。
📊精彩表现
Qwen3-Omni确立了其领导者地位,并取得了 在36项音频和视听基准测试中,有22项取得了最先进的结果。它在各种性能指标上都明显优于强大的闭源模型,包括 Gemini 2.5 Pro 和 GPT-4o-Transcribe。
- 文本理解: 在 MMLU、GPQA、推理和复杂代码任务中,展现出与顶级模型相媲美的性能。
- 音频识别(ASR): 达到 词错误率 (WER) 与 Seed-ASR 和 GPT-4o-Transcribe 相当或更优 涵盖多个数据集。
- 多模态推理: 在具有挑战性的视听问答和综合视频描述基准测试中表现出色。
- 语音生成: 提供高质量产品 多语言语音合成在 10 种不同的语言中保持一致的说话者身份。
- 流媒体延迟: 具有令人印象深刻的特点 超低首包延迟,约为 211 毫秒确保近乎即时的语音响应。
- 音频字幕: 经过特别微调的模型在生成方面表现出色 为任意音频内容提供详细、高度准确的字幕。

💡主要能力
- 高级架构: 采用基于 MoE 的 Thinker-Talker 设计,集成了 Audio Transformer (AuT) 预训练和创新的多码本语音合成技术。 低延迟和极高保真度的输出。
- 广泛推理: 专门的思维模型变体显著增强了所有支持模式的推理能力,确保对复杂输入有更深入的理解。
- 定制化: 提供强大的自定义选项,允许用户通过直观的系统提示微调模型的行为、语气和交互方式。
- 开源音频字幕器: 微调 Qwen3-Omni-30B-A3B-字幕员 变体提供高度详细且低幻觉的音频描述,使高级字幕变得易于理解。
- 实时交互: 专为对话中的自然轮流而设计,支持即时文本或语音回复,带来流畅且引人入胜的用户体验。
🚀多种应用场景
- 开发能够理解音频和视频输入的高级多语言聊天机器人。
- 提供多种语言的实时流媒体转录和翻译服务。
- 深入的音频和视频内容分析,包括自动摘要和详细字幕。
- 创建复杂的多模态问答和推理系统。
- 设计具有自然语音理解能力和丰富多模态理解能力的直观语音助手。
- 实现交互式多媒体内容生成和无缝导航体验。
💻API 和集成
API定价:
- 输入: 4.0005美元
- 输出: 3.213美元
API集成:
Qwen3-Omni Captioner 可通过 AI/ML API 轻松访问。如需完整文档、详细集成指南和更多 API 参考资料,请访问[此处插入链接]。 官方文件可在此处获取。。
代码示例:
🆚Qwen3-Omni 与领先型号的比较
- 与 Gemini 2.5 Pro 对比: Qwen3-Omni 表现与双子座相当或更佳 在音视频基准测试中表现出色 开源无障碍它提供了相当的ASR性能,且性能显著提升。 更低的延迟 在流式语音生成中。
- 对比 Seed-ASR: Qwen3-Omni 实现 优异或高度可比的词错误率 同时,它还将其功能扩展到更广泛的多模态领域,远远超出简单的音频处理。
- 与 GPT-4o 相比: Qwen3-Omni 尤其擅长多模态音频和视频任务同时,还能保持对传统文本任务的熟练掌握。它具有以下特点: 低延迟流媒体音频输出这主要归功于其原生的多码本语音编解码器。
❓常见问题解答
Qwen3-Omni Captioner 的独特之处在于它是一个端到端的多语言全模态基础模型。它支持多种输入方式,例如: 文本、图像、音频和视频并提供 实时流式文本和语音输出其创新的 Thinker-Talker 架构和 MoE 设计确保了所有模式下的卓越性能和超低延迟。
该模型通过其“Talker”组件实现这一点,该组件使用多标记预测器 (MTP) 来自回归地预测多码本序列。然后,Code2Wav 渲染器将这些残差码本逐步合成为波形,从而实现 无缝、逐帧音频流传输,延迟极低。
Qwen3-Omni演示 在36项音频和视听基准测试中,有22项取得了最先进的结果。它通常能超越或媲美 Gemini 2.5 Pro、Seed-ASR 和 GPT-4o 等强大的闭源模型,尤其在多模态任务、ASR 准确率和功能方面表现出色。 降低流媒体延迟。
是的,Qwen3-Omni 提供了丰富的自定义选项。它的行为,包括交互的语气和风格,都是可以自定义的。 可通过系统提示进行完全配置这样一来,用户就可以根据具体的应用需求和用户偏好来定制模型的响应。
Qwen3-Omni Captioner 功能非常全面,非常适合以下应用: 具备多模态理解能力、实时转录和翻译能力、详细的音频和视频内容分析能力、高级多模态问答能力以及自然语音助手功能的多语言聊天机器人以及交互式多媒体内容生成。



登录