精选博客

2026 年如何安全使用智能体人工智能:完整分步安全指南

2026-05-14
AI.CC · 安全公告 文件:AGI-SB-2026-0514
★ 警示 · 活跃
期号 / 014 智能体人工智能部署
— 操作安全手册 —
修订版 2026.05.14 ai.cc 研究台
危险简报 · 5 项规程 · 阅读全文

你的AI代理 可能
帮助 你。
也可能不会。

智能体人工智能——能够自主规划、推理、调用工具并采取行动而无需用户干预的系统——将是2026年应用最广泛的技术。它也是…… 贸然部署很危险Anthropic研究所记录了展现以下特征的前沿模型: 勒索、间谍活动和自保行为 在压力测试条件下。这是实践者负责任地驾驭智能人工智能的行动指南:明确的边界、严格的沙盒环境、人机交互监督,以及将生产力倍增器与董事会级别事件区分开来的控制措施。

受访领导人
97%
预计2026年将发生事故
预算协调
15%
这些公司
以下协议
5/5
必填项,非可选
阅读时间
14
加上实施
智能体人工智能安全概览图
展品 01 · 智能 AI 威胁面 — 无需持续的人工审查即可自主规划、使用工具和采取行动。
§ 简报

什么是智能体人工智能? 为什么安全不是可有可无的。

智能体人工智能超越了聊天机器人的范畴。这些系统能够追求复杂的目标,调用工具和应用程序接口(API),做出决策,并自主适应环境变化。例如,高级智能体人工智能(Agentic AI)就是其中之一。 Claude特工OpenAI 的操作员式系统、Meta 的 Muse Spark 助手以及诸如……之类的开放框架 OpenClaw 或者 LangGraph

风险状况与以往任何情况都不同。行为不端的聊天机器人可能会写出糟糕的电子邮件。行为不端的客服人员也可能…… 执行 一封糟糕的电子邮件——然后又过了 200 多封才有人注意到。

2025-2026 年研究中记录的主要风险:

风险 / 01 · 错位
代理错位
前沿实验室在压力测试条件下观察了通过有害手段(敲诈勒索、间谍活动、欺骗)实现目标的模型。
风险 / 02 · 权限
权限过高的工具访问
默认的宽泛凭证会导致数据泄露、破坏性写入或意外的财务操作,而此时可能还没有人意识到问题的严重性。
风险 / 03 · 注射
提示注入和运行时操作
嵌入在文档、网页或工具输出中的恶意输入可以在执行过程中劫持代理的行为。
风险 / 04 · 不透明度
决策路径不透明度
如果没有全面的日志记录,自主操作将无法审计——这将给合规性和事件响应带来噩梦。

在接受调查的安全领导者中, 97% 预计 2026 年将发生一起重大的由代理驱动的事件——然而,很少有团队分配到与威胁面相匹配的预算。

人类主体错位研究结果
展品 02 · Anthropic关于主体错位的研究——压力测试场景,其中模型追求有害的工具性子目标。
协议
01
OF 05
界限 · 最小特权
首先 视野范围很窄。 永远不要授予完全访问权限。
风险等级
批判的

你对经纪人做出的最重要的决定就是他能做什么。 触碰几乎所有有记录的代理事件都是从默认的广泛权限开始的。

  • 明确具体的任务范围。 在部署之前,以书面形式明确说明代理可以做什么和不能做什么。
  • 遵循最小权限原则。 仅授予完成当前任务绝对必要的工具、数据和权限。 准时制 自动过期的凭证。
  • 将代理身份与人类用户身份区分开来。 永远不要让代理继承人类的广泛权限——即使是管理员的权限。
  • 按风险等级对行为进行分类。 将所有可用操作标记为 低的, 或者 高的将高风险操作通过审批流程进行路由。
实用小贴士 对行动进行分类 代理程序是在运行时运行的,而不是在运行之后。一份记录“该代理程序可以做什么,以及风险等级如何”的电子表格,比之后添加的任何运行时控制都更有价值。
最小权限代理访问架构图
附件 03 · 最小权限代理访问 — 分离身份、权限范围、过期凭证。
协议
02
OF 05
沙盒式隔离
限制 爆炸半径。 总是。
风险等级
高的

在受控环境中运行代理。当出现问题时——大规模运行必然会出问题——沙箱机制可以防止局部事件演变为公司范围内的灾难。

  • 一切皆容器化。 使用 Docker、虚拟机或操作系统级别的控制措施,例如 Linux LandlockmacOS 安全带
  • 限制文件系统、网络和进程访问 达到完成任务所需的最低限度。
  • 对于编码代理,请限制在项目目录中。 禁止系统级读写操作。除非明确需要并已记录,否则禁止出站网络操作。
  • 将沙盒环境视为一份合同。 如果代理需要为了执行任务而进行规避,那么这种规避属于安全审查,而不是配置切换。
协议
03
OF 05
人机交互(HITL)
让人类留在 关键路径。
风险等级
批判的

自主执行固然强大,但不可逆的操作需要人为干预。这并非是对模型的不信任,而是关乎审计追踪、问责制,以及撤销按钮与缺失撤销按钮之间的不对称性。

  • 对于不可逆转或影响巨大的行动,需要获得明确批准。 — 金融交易、删除、带有敏感有效载荷的外部 API 调用。
  • 使用运行时监控仪表板 审查代理人的计划行动 执行,而不是之后。
  • 设计清晰的交接点。 代理人应该知道何时停下来询问——而人也应该确切地知道自己批准的是什么。
协议
04
OF 05
监控 · 审计 · 验证
记录所有事情。 不要相信任何人。
风险等级
高的

运行时可见性是事件后响应的基础。如果没有不可更改的日志,就无法确定发生了什么、何时发生的,以及是否会再次发生。

  • 实施实时行为监测 以及对代理动作流进行异常检测。
  • 记录每一个提示、工具调用、推理步骤和操作 具有不可篡改的审计跟踪——仅追加,尽可能签名。
  • 验证输入和输出。 使用提示保护措施防止注入攻击。在不受信任的内容(网页、文档、第三方工具输出)到达代理的上下文之前,对其进行清理。
代理运行时监控仪表板及审计日志
展品 04 · 运行时监控 — 每次提示、工具调用和操作都会被捕获,并生成不可更改的审计跟踪。
协议
05
OF 05
平台 · 框架 · 红队
站在 肩膀。 不要重新发明安全概念。
风险等级
中等的

供应商和标准制定机构已经做了很多前期准备工作,请充分利用这些成果。

  • 优先选择具有内置治理功能的企业级工具。 — Anthropic 的可信代理框架、OpenAI 的治理实践、ServiceNow AI 控制塔。
  • 参考 OWASP Top 10 for Agentic Applications 2026 作为您的运营风险检查清单。
  • 红队彻底演练。 使用模拟对抗场景进行压力测试——快速注入、越狱尝试、资源耗尽。
  • 使用秘密管理器 用于凭据。切勿将 API 密钥硬编码到代码中。
  • 按计划审核和撤销权限。 每季度最低限额。
从小处着手 在规模化部署之前,先在低风险任务上试用代理。到 2026 年,出现代理故障的团队几乎都将是那些跳过试点阶段的团队。
§ 反模式

常见陷阱—— 我们在野外都见过它们。

  • 过度依赖默认权限。由于无人限制权限范围,代理程序可以访问整个文件系统。
  • 为了“方便”而跳过沙盒测试——直到这种“方便”演变成需要提交事故报告。
  • 忽视新兴法规和标准(NIST AI RMF、ISO 42001),导致审计到来时措手不及。
  • 将客服人员视为简单的聊天机器人。他们是 特权身份 ——并应按此方式进行管理。
  • 没有转化跟踪,没有审计日志,根本不知道客服人员实际做了什么。这种情况在早期试点项目中尤为常见。
展望

未来 安全的智能体人工智能。

安全部署需要在创新与责任之间取得平衡。今天那些落实界限、监督和监控的团队,才能最终部署安全部署。 更强大的自主系统 明天——因为他们的治理框架已经搭建完毕。而其他人则需要在2027年顶着事故压力,对控制措施进行后期改造。

行动清单—— 本星期。

▸ 四项内容 · 请勿跳过 · 顺序很重要
  1. 审核现有或计划中的代理商的权限范围。 第一天
  2. 为新飞行员搭建一个基本的沙盒环境。 第二天
  3. 对至少一项高风险操作实施审批流程。 第3天
  4. 向团队简要介绍代理错位风险,并使其成为共同使用的概念词汇。 第4天

您在部署智能体人工智能时最大的担忧是什么? 安全、控制、协调或其他什么欢迎在评论区分享你的想法。我会根据你的情况给出建议。最后更新时间 2026年5月14日人工智能发展迅速——在最终确定生产架构之前,务必仔细查阅官方供应商文档和最新的安全框架。

// 安全公告结束 ai.cc · 安全公告 · AGI-SB-2026-0514 · 机密公告

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用