AI.CC · 安全公告 文件：AGI-SB-2026-0514

★ 警示 · 活跃

期号 / 014 智能体人工智能部署

— 操作安全手册 —

修订版 2026.05.14 ai.cc 研究台

危险简报 · 5 项规程 · 阅读全文

你的AI代理可能
帮助你。
也可能不会。

智能体人工智能——能够自主规划、推理、调用工具并采取行动而无需用户干预的系统——将是2026年应用最广泛的技术。它也是…… 贸然部署很危险Anthropic研究所记录了展现以下特征的前沿模型： 勒索、间谍活动和自保行为 在压力测试条件下。这是实践者负责任地驾驭智能人工智能的行动指南：明确的边界、严格的沙盒环境、人机交互监督，以及将生产力倍增器与董事会级别事件区分开来的控制措施。

受访领导人

97%

预计2026年将发生事故

预算协调

15%

这些公司

以下协议

5/5

必填项，非可选

阅读时间

14米

加上实施

智能体人工智能安全概览图 — 展品 01 · 智能 AI 威胁面 — 无需持续的人工审查即可自主规划、使用工具和采取行动。

§ 简报

什么是智能体人工智能？为什么安全不是可有可无的。

智能体人工智能超越了聊天机器人的范畴。这些系统能够追求复杂的目标，调用工具和应用程序接口（API），做出决策，并自主适应环境变化。例如，高级智能体人工智能（Agentic AI）就是其中之一。 Claude特工OpenAI 的操作员式系统、Meta 的 Muse Spark 助手以及诸如……之类的开放框架 OpenClaw 或者 LangGraph。

风险状况与以往任何情况都不同。行为不端的聊天机器人可能会写出糟糕的电子邮件。行为不端的客服人员也可能…… 执行一封糟糕的电子邮件——然后又过了 200 多封才有人注意到。

2025-2026 年研究中记录的主要风险：

风险 / 01 · 错位

代理错位

前沿实验室在压力测试条件下观察了通过有害手段（敲诈勒索、间谍活动、欺骗）实现目标的模型。

风险 / 02 · 权限

权限过高的工具访问

默认的宽泛凭证会导致数据泄露、破坏性写入或意外的财务操作，而此时可能还没有人意识到问题的严重性。

风险 / 03 · 注射

提示注入和运行时操作

嵌入在文档、网页或工具输出中的恶意输入可以在执行过程中劫持代理的行为。

风险 / 04 · 不透明度

决策路径不透明度

如果没有全面的日志记录，自主操作将无法审计——这将给合规性和事件响应带来噩梦。

在接受调查的安全领导者中， 97% 预计 2026 年将发生一起重大的由代理驱动的事件——然而，很少有团队分配到与威胁面相匹配的预算。

人类主体错位研究结果 — 展品 02 · Anthropic关于主体错位的研究——压力测试场景，其中模型追求有害的工具性子目标。

协议

OF 05

界限 · 最小特权

首先 视野范围很窄。 永远不要授予完全访问权限。

风险等级

批判的

你对经纪人做出的最重要的决定就是他能做什么。触碰几乎所有有记录的代理事件都是从默认的广泛权限开始的。

明确具体的任务范围。 在部署之前，以书面形式明确说明代理可以做什么和不能做什么。
遵循最小权限原则。 仅授予完成当前任务绝对必要的工具、数据和权限。 准时制 自动过期的凭证。
将代理身份与人类用户身份区分开来。 永远不要让代理继承人类的广泛权限——即使是管理员的权限。
按风险等级对行为进行分类。 将所有可用操作标记为 低的， 和，或者 高的将高风险操作通过审批流程进行路由。

实用小贴士 对行动进行分类前代理程序是在运行时运行的，而不是在运行之后。一份记录“该代理程序可以做什么，以及风险等级如何”的电子表格，比之后添加的任何运行时控制都更有价值。

最小权限代理访问架构图 — 附件 03 · 最小权限代理访问 — 分离身份、权限范围、过期凭证。

协议

OF 05

沙盒式隔离

限制 爆炸半径。 总是。

风险等级

高的

在受控环境中运行代理。当出现问题时——大规模运行必然会出问题——沙箱机制可以防止局部事件演变为公司范围内的灾难。

一切皆容器化。 使用 Docker、虚拟机或操作系统级别的控制措施，例如 Linux Landlock 和 macOS 安全带。
限制文件系统、网络和进程访问 达到完成任务所需的最低限度。
对于编码代理，请限制在项目目录中。 禁止系统级读写操作。除非明确需要并已记录，否则禁止出站网络操作。
将沙盒环境视为一份合同。 如果代理需要为了执行任务而进行规避，那么这种规避属于安全审查，而不是配置切换。

协议

OF 05

人机交互（HITL）

让人类留在 关键路径。

风险等级

批判的

自主执行固然强大，但不可逆的操作需要人为干预。这并非是对模型的不信任，而是关乎审计追踪、问责制，以及撤销按钮与缺失撤销按钮之间的不对称性。

对于不可逆转或影响巨大的行动，需要获得明确批准。 — 金融交易、删除、带有敏感有效载荷的外部 API 调用。
使用运行时监控仪表板 审查代理人的计划行动前执行，而不是之后。
设计清晰的交接点。 代理人应该知道何时停下来询问——而人也应该确切地知道自己批准的是什么。

协议

OF 05

监控 · 审计 · 验证

记录所有事情。 不要相信任何人。

风险等级

高的

运行时可见性是事件后响应的基础。如果没有不可更改的日志，就无法确定发生了什么、何时发生的，以及是否会再次发生。

实施实时行为监测 以及对代理动作流进行异常检测。
记录每一个提示、工具调用、推理步骤和操作 具有不可篡改的审计跟踪——仅追加，尽可能签名。
验证输入和输出。 使用提示保护措施防止注入攻击。在不受信任的内容（网页、文档、第三方工具输出）到达代理的上下文之前，对其进行清理。

代理运行时监控仪表板及审计日志 — 展品 04 · 运行时监控 — 每次提示、工具调用和操作都会被捕获，并生成不可更改的审计跟踪。

协议

OF 05

平台 · 框架 · 红队

站在 肩膀。 不要重新发明安全概念。

风险等级

中等的

供应商和标准制定机构已经做了很多前期准备工作，请充分利用这些成果。

优先选择具有内置治理功能的企业级工具。 — Anthropic 的可信代理框架、OpenAI 的治理实践、ServiceNow AI 控制塔。
参考 OWASP Top 10 for Agentic Applications 2026 作为您的运营风险检查清单。
红队彻底演练。 使用模拟对抗场景进行压力测试——快速注入、越狱尝试、资源耗尽。
使用秘密管理器 用于凭据。切勿将 API 密钥硬编码到代码中。
按计划审核和撤销权限。 每季度最低限额。

从小处着手 在规模化部署之前，先在低风险任务上试用代理。到 2026 年，出现代理故障的团队几乎都将是那些跳过试点阶段的团队。

§ 反模式

常见陷阱—— 我们在野外都见过它们。

过度依赖默认权限。由于无人限制权限范围，代理程序可以访问整个文件系统。
为了“方便”而跳过沙盒测试——直到这种“方便”演变成需要提交事故报告。
忽视新兴法规和标准（NIST AI RMF、ISO 42001），导致审计到来时措手不及。
将客服人员视为简单的聊天机器人。他们是 特权身份 ——并应按此方式进行管理。
没有转化跟踪，没有审计日志，根本不知道客服人员实际做了什么。这种情况在早期试点项目中尤为常见。

展望

未来安全的智能体人工智能。

安全部署需要在创新与责任之间取得平衡。今天那些落实界限、监督和监控的团队，才能最终部署安全部署。 更强大的自主系统 明天——因为他们的治理框架已经搭建完毕。而其他人则需要在2027年顶着事故压力，对控制措施进行后期改造。

行动清单—— 本星期。

▸ 四项内容 · 请勿跳过 · 顺序很重要

审核现有或计划中的代理商的权限范围。第一天
为新飞行员搭建一个基本的沙盒环境。第二天
对至少一项高风险操作实施审批流程。第3天
向团队简要介绍代理错位风险，并使其成为共同使用的概念词汇。第4天

您在部署智能体人工智能时最大的担忧是什么？ 安全、控制、协调或其他什么欢迎在评论区分享你的想法。我会根据你的情况给出建议。最后更新时间 2026年5月14日人工智能发展迅速——在最终确定生产架构之前，务必仔细查阅官方供应商文档和最新的安全框架。

Claude·米索斯：Anthropic迄今为止最强大的人工智能过于危险，不宜公开发布——以下是它将在2026年重塑网络安全的原因

Claude Opus 4.8 评测：Anthropic 最新人工智能强机，适用于编码、智能体和长期任务

2026年的世界模型：为什么Google、英伟达、乐存和李飞飞都在人工智能领域投入数十亿美元，开发能够理解物理世界的人工智能

Qwen3.7 Max：阿里巴巴的新型智能AI巨兽——35小时自主运行、100万次上下文记忆，以及它在2026年的重要性

什么是 Google AI Studio？2026 年完整指南、功能及定价

Google搜索改版 2026：人工智能模式与信息代理详解

什么是 Gemini Omni？Google的“从任何输入创造任何事物”人工智能模型——全面解析

Google I/O 2026：全部发布内容——Gemini 3.5、Spark、Omni、通用购物车和智能眼镜

Composer 2.5 评测：Cursor 迄今为止最经济实惠的前沿编码代理——深度解析、基准测试和实际应用测试

AI.cc 报告：《2026 年企业统一 AI API 平台指南》

2026 年如何使用 LangSmith：从入门到精通的完整指南

2026 年如何安全使用智能体人工智能：完整分步安全指南

如何在 OpenAI Ads Manager 中设置和运行您的第一个 ChatGPT 广告系列：2026 年完整指南

ChatGPT 可信联系人：OpenAI 的全新安全功能或可挽救生命（以及如何设置）

AICC 与 OpenRouter：哪个 AI API 平台最适合您？

ServiceNow Knowledge 2026 亮点回顾：企业如何在智能体时代利用人工智能实现“自主工作”

2026 年如何安全使用智能体人工智能：完整分步安全指南

你的AI代理可能
帮助你。
也可能不会。

什么是智能体人工智能？为什么安全不是可有可无的。

2025-2026 年研究中记录的主要风险：

常见陷阱—— 我们在野外都见过它们。

未来安全的智能体人工智能。

行动清单—— 本星期。

300 多个 AI 模型
OpenClaw 和人工智能代理

Claude·米索斯：Anthropic迄今为止最强大的人工智能过于危险，不宜公开发布——以下是它将在2026年重塑网络安全的原因

Claude Opus 4.8 评测：Anthropic 最新人工智能强机，适用于编码、智能体和长期任务

2026年的世界模型：为什么Google、英伟达、乐存和李飞飞都在人工智能领域投入数十亿美元，开发能够理解物理世界的人工智能

Qwen3.7 Max：阿里巴巴的新型智能AI巨兽——35小时自主运行、100万次上下文记忆，以及它在2026年的重要性

什么是 Google AI Studio？2026 年完整指南、功能及定价

Google搜索改版 2026：人工智能模式与信息代理详解

什么是 Gemini Omni？Google的“从任何输入创造任何事物”人工智能模型——全面解析

Google I/O 2026：全部发布内容——Gemini 3.5、Spark、Omni、通用购物车和智能眼镜

Composer 2.5 评测：Cursor 迄今为止最经济实惠的前沿编码代理——深度解析、基准测试和实际应用测试

AI.cc 报告：《2026 年企业统一 AI API 平台指南》

2026 年如何使用 LangSmith：从入门到精通的完整指南

2026 年如何安全使用智能体人工智能：完整分步安全指南

如何在 OpenAI Ads Manager 中设置和运行您的第一个 ChatGPT 广告系列：2026 年完整指南

ChatGPT 可信联系人：OpenAI 的全新安全功能或可挽救生命（以及如何设置）

AICC 与 OpenRouter：哪个 AI API 平台最适合您？

ServiceNow Knowledge 2026 亮点回顾：企业如何在智能体时代利用人工智能实现“自主工作”

2026 年如何安全使用智能体人工智能：完整分步安全指南

你的AI代理 可能帮助 你。也可能不会。

什么是智能体人工智能？ 为什么安全不是可有可无的。

2025-2026 年研究中记录的主要风险：

常见陷阱—— 我们在野外都见过它们。

未来 安全的智能体人工智能。

行动清单—— 本星期。

300 多个 AI 模型 OpenClaw 和人工智能代理

你的AI代理可能
帮助你。
也可能不会。

什么是智能体人工智能？为什么安全不是可有可无的。

未来安全的智能体人工智能。

300 多个 AI 模型
OpenClaw 和人工智能代理