qwen-bg
max-ico04
出去
max-ico02
聊天
max-ico03
禁用
全能人
它利用扩散变换器架构和多条件训练,支持各种输入,例如视频参考,并生成高质量、可定制的视频,适用于市场营销、娱乐和教育等应用。
新会员可获赠价值 1 美元的免费Tokens
Text to Speech
                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/video/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'bytedance/omnihuman',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
      audio_url: 'https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                
                                        import requests


def main():
    url = "https://api.ai.cc/v2/video/generations"
    payload = {
      "model": "bytedance/omnihuman",
      "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
      "audio_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()
Docs

一个 API 包含 300 多个 AI 模型

节省20%费用并获赠价值1美元的Tokens
qwenmax-bg
图片
全能人

产品详情

全能人 是由字节跳动开发的用于生成数据的高级人工智能模型。 个性化逼真全身视频 只需一张照片和一段音频(语音或人声),该模型即可生成任意时长、可自定义宽高比和身体比例的视频,不仅能动画化面部,还能动画化整个身体,包括手势和面部表情,并与语音精确同步。

✨ 技术规格

  • 同步: 先进的唇形同步技术能够将语音与嘴部动作和面部表情紧密匹配。
  • 运动动力学: 扩散变换器预测并优化逐帧的身体运动,从而实现流畅、逼真的动画。
  • 多条件训练: 结合音频、姿态和文本输入,实现精确的运动预测。
  • 用户界面: 易于使用的平台,具备上传、生成和下载功能,专为专业用户和普通用户设计。

📊 性能基准测试

  • 实现高度逼真的视频生成,具有自然的唇形同步、面部表情和全身动作。
  • 通过对整个身体进行动画处理,其效果优于主要针对面部的传统深度伪造技术。
  • 经过对数千个视频样本的大量内部测试,证实了流畅的过渡和准确的语音动作对齐。
  • 支持创建更长的视频,而不会损失同步性或运动自然度。

💰 API 定价

每秒 0.126 美元

🚀 主要特点

  • 可自定义视频长度和宽高比: 允许创建任意时长的视频并调整身体比例。
  • 高保真度和自然度: 通过超过 18,700 小时的视频数据训练,掌握了细微的手势、表情和动作动态。
  • 多样式兼容性: 适用于人像、半身像或全身像,包括写实照片和风格化姿势。

💡 使用案例

  • 为市场营销、娱乐和社交媒体创建逼真的数字虚拟形象。
  • 为虚拟活动和演示生成全身视频头像。
  • 为游戏、电影和虚拟制作制作人工智能驱动的角色。
  • 利用动画讲师提升远程学习和在线教育。
  • 将配音和旁白与逼真的唇形同步视频头像同步。

💻 代码示例

↔️ 与其他型号的比较

vs Meta Make-A-Video: OmniHuman 使用多模态输入(音频、图像、视频)实现精准的全身人体动画,从而能够呈现细致的手势和表情。Meta Make-A-Video 则根据文本提示生成短视频,主要侧重于创意内容而非逼真的人体动作。

与 Synthesia 对比: OmniHuman 制作逼真、完整、全身的视频,具备自然的唇形同步和肢体动作,适用于各种专业应用。Synthesia 则专注于制作带有上半身动画的会说话的头像虚拟形象,针对商务演示和在线学习进行了优化,但动作幅度较小。

⚠️ 伦理考量

虽然 OmniHuman 提供了突破性的功能,但也存在与深度伪造滥用相关的风险。 强烈建议遵守负责任使用指南和权利管理政策。 在部署这项技术时。

🔗 API 集成

可通过 AI/ML API 访问。有关完整文档,请参阅…… 官方 OmniHuman API 文档

❓ 常见问题解答 (FAQ)

OmniHuman 采用何种生成式架构,才能在各种属性上实现逼真的人体合成?

OmniHuman采用了一种革命性的组合生成框架,将人类外貌分解为正交因素,包括面部几何形状、皮肤纹理、毛发特性、身体形态和表情特征。该架构具有解耦的潜在表征,允许独立控制人口统计属性、年龄增长、情感表达和风格元素,同时保持生物学上的合理性。先进的归一化流程和扩散过程确保了照片级逼真的输出质量,而训练过程中嵌入的伦理约束则防止在未经明确同意的情况下生成可识别的个体。

OmniHuman是如何在合成人类生成领域实现前所未有的多样性和包容性的?

该模型通过精心挑选的训练数据,全面涵盖了人口统计学和表型特征,展现了全球人类在种族、年龄、体型、能力和文化表现等方面的多样性。先进的数据增强技术能够生成超越离散类别的连续变化,而训练目标中的公平性约束则可防止代表性偏差。该系统包含用于调整代表性比例的明确控制功能,并确保所有人口群体都能获得公平的生成质量,因此对于创建包容性视觉内容和避免刻板印象的描绘尤为重要。

OmniHuman在交互式应用中有哪些独特的动态生成能力?

OmniHuman支持实时生成动态人体模型,可控制面部表情、视线方向、头部姿态和肢体语言。该架构能够实现不同属性之间的无缝插值、年龄增长/衰退序列以及情绪表达的自然过渡,同时保持身份一致性。先进的时间一致性机制确保动作和表情变化流畅自然,使该模型适用于虚拟化身、对话代理和动态内容创作等交互式应用,在这些应用中,人体模型需要实时适应用户交互。

该模型如何确保合乎伦理地生成数据并防止潜在的滥用?

OmniHuman 整合了多项伦理保障措施,包括生物特征相​​似性检测(可防止复制现有个体)、内容审核系统(可过滤不当请求)、多样性强制机制(可防止生成同质化输出)以及透明功能(可清晰识别合成内容)。该模型的训练包含确保跨人口群体公平代表性的明确目标,部署框架则包含使用监控和针对敏感应用的限制。这些措施既保证了模型的负责任使用,又维护了其创造性和实用性。

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

一个 API
300多个人工智能模型

节省20%的费用