Claude Code Auto Mode：Anthropic 是怎么给 Agent 加上安全自治护栏的

Wed, 27 May 2026 22:03:07 +0800

Claude Code 的 Auto Mode 看起来像一个很朴素的功能：少弹一点“是否允许执行”的确认框。但它背后其实是在解决 Agent 领域最难啃的问题之一：怎么让模型更自治，同时不把安全边界一起放飞。

Anthropic 这篇文章的价值不在于“又多了一个模式”，而在于它把一个可落地的安全架构讲清楚了：

输入侧怎么防 prompt injection
输出侧怎么拦危险动作
什么操作可以直接放行，什么必须升级判断
为什么要用“两层防线”，而不是只靠一个大模型拍脑袋

这篇文章我会把它拆成一个更容易理解的工程视角。

Auto Mode 解决的不是“能不能做”，而是“该不该打断”

传统 Claude Code 的交互很安全：运行命令前问一次，改文件前问一次。问题是，Agent 一旦开始做长任务，用户会迅速进入“批准疲劳”：

点太多次，注意力下降
看不清风险，直接机械确认
真正危险的操作，反而更容易漏掉

Anthropic 的判断很直接：纯手工审批太慢，完全放开又太危险。

所以 Auto Mode 的目标不是取消安全，而是把安全从“人工按钮”升级成“模型辅助的决策链”。

flowchart LR
    U[用户请求] --> A[Claude Code]
    A --> B{是否需要执行动作?}
    B -->|一般动作| C[直接放行]
    B -->|可能危险| D[模型分类器判断]
    D -->|允许| C
    D -->|拒绝/阻断| E[提示用户确认或改写任务]
    A --> F[外部工具输出]
    F --> G[Prompt Injection Probe]
    G --> H[污染内容不直接进上下文]

整体架构：输入扫描 + 输出分类器

Auto Mode 不是单点防御，而是两层：

Agent Security on Lucas Ma 的博客

Claude Code Auto Mode：Anthropic 是怎么给 Agent 加上安全自治护栏的

目录

Auto Mode 解决的不是“能不能做”，而是“该不该打断”

整体架构：输入扫描 + 输出分类器