qwen-bg
max-ico04
出去
max-ico02
聊天
max-ico03
禁用
稳定音频
探索 Stability AI 的 Stable Audio,这是一款先进的音频生成模型,它利用创新功能,根据文本提示创建高质量的曲目。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/generate/audio', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'stable-audio',
      prompt: 'lo-fi pop hip-hop ambient music',
      steps: 100,
      seconds_total: 10,
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                
                                        import requests


def main():
    url = "https://api.ai.cc/v2/generate/audio"
    payload = {
        "model": "stable-audio",
        "prompt": "lo-fi pop hip-hop ambient music",
        "steps": 100,
        "seconds_total": 10,
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
qwenmax-bg
图片
稳定音频

产品详情

🎵 稳定音频:高级AI音频生成模型概述

稳定音频 是由开发的一种创新音频生成模型 稳定性人工智能正式发布于 2023年9月这项尖端人工智能技术旨在根据文本提示直接创建高质量的音频轨道,可服务于广泛的创意和专业应用。

✨ 主要特性和功能

  • 高保真输出: 以令人印象深刻的速度生成专业级立体声音频 44.1 kHz 采样率确保音质丰富清晰,适合各种媒体使用。
  • 结构化音频长度: 能够创作出融合独特音乐结构的连贯曲目,包括引人入胜的引子、动感十足的发展和清晰的结尾。
  • 多样化的声音创作: Stable Audio 擅长生成各种音频内容,从复杂的旋律和多样的音乐风格到逼真的音效,满足音乐家和音效设计师的细致需求。

🎯 预期使用场景

此型号主要设计用于:

  • 音乐家和作曲家: 帮助创作新的音乐作品、伴奏或实验性音景。
  • 音效设计师: 用于为游戏、电影、互动媒体和其他多媒体项目生成定制音效或环境背景。
  • 开发者: 将人工智能音频生成功能集成到各种应用程序和平台中。

稳定音频主要处理 英文文本提示但它强大的架构允许根据提供的具体上下文处理多语言输入。

⚙️ 技术规范与架构

底层架构

稳定音频建立在复杂的技术之上。 潜在扩散模型架构经过精心优化,专为音频合成而设计。其关键组件包括:

  • 高度压缩的自编码器: 能够高效、高质量地表示复杂的音频波形,这对处理和生成至关重要。
  • 扩散变换器(DiT): 该组件擅长处理长序列数据,从而能够生成连贯且结构良好的音频片段。

训练数据及整理

该模型强大的功能源于其在庞大且多样化的数据集上进行的训练:

  • 数据来源及规模: 训练数据集是从以下来源收集的: AudioSparx音乐库涵盖超过 80万个音频文件这个丰富的合集包含了各种各样的音乐、不同的音效和单独的乐器音轨,为理解音频元素提供了全面的基础。
  • 符合伦理的策展与多样性: 重点在于尊重 创作者权利 在数据整理过程中,我们为艺术家提供了退出选项。这种周全的做法最大限度地减少了潜在的偏见,并确保生成的输出结果保持多元化。

绩效指标

稳定音频在各项关键指标上均表现出色:

指标 分数
质量指数 高的
最大生成轨道长度 最多 47 秒
采样率 44.1 kHz

注:在较小的屏幕上,表格内容可水平滚动,以获得最佳阅读效果。

💻 使用指南和 API 集成

API 访问和代码示例

稳定音频可通过以下方式轻松集成: AI/ML API平台其中列为 “稳定音频”

通过程序生成音频:

// 创建音频生成示例 API 请求POST /audio.create-generation-stable Content-Type: application/json { "prompt": "一首具有强劲节奏和霓虹旋律的未来主义合成波曲目", "model": "stable-audio", "duration": 45 // 以秒为单位,最长 47 秒}

获取生成的音频:

// 获取生成的音频文件的示例 API 调用GET /audio.fetch-generation?id={generation_id} Accept: audio/mpeg

完整的 API 文档

有关请求参数、响应格式、身份验证和错误处理的详细信息,请查阅官方文档。 API 文档

⚖️ 道德准则与许可

伦理发展框架

稳定性人工智能致力于促进 符合伦理的人工智能开发他们为稳定音频所采取的关键方法包括:

  • 透明度: 保持对模型的功能、潜在应用和固有局限性的清晰沟通。
  • 创作者权利: 确保所有使用的训练数据严格遵守版权法,并为艺术家提供明确的…… 选择退出机制 供其内容用于未来的培训。

许可信息

稳定音频根据以下条款提供: 商业许可该许可授予用户在研究和商业应用方面的权利,同时遵守既定的道德标准并尊重知识产权。

使用 Stable Audio 开启您的创作之旅。访问 API 并开始使用。 这里

常见问题解答 (FAQ)

问:什么是稳定音频?它是谁开发的?

答:Stable Audio 是由 Stability AI 开发的先进 AI 音频生成模型,能够根据文本提示创建高质量的音频轨道。

问:Stable Audio 可以生成的音频最长持续时间是多少?

答:稳定音频可以生成长达 47 秒的连贯音乐结构和曲目。

问:Stable Audio 使用了哪种类型的数据进行训练?

答:该模型使用来自 AudioSparx 音乐库的超过 80 万个音频文件的庞大且多样化的数据集进行训练,其中包括音乐、音效和单个乐器音轨。

问:Stable Audio 可以用于商业项目吗?

答:是的,Stable Audio 已获得商业许可,允许在遵守道德准则和创作者权利的前提下进行研究和商业用途。

问:我可以在哪里访问 Stable Audio 的 API 及其文档?

答:Stable Audio 的 API 已在 AI/ML API 平台上提供,完整的文档可在其网站上找到。 官方文档门户

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用