<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Agent Security on Lucas Ma 的博客</title>
    <link>https://blog.lucasma.cc/tags/agent-security/</link>
    <description>Recent content in Agent Security on Lucas Ma 的博客</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>2026 Lucas Ma</copyright>
    <lastBuildDate>Wed, 27 May 2026 22:03:07 +0800</lastBuildDate>
    <atom:link href="https://blog.lucasma.cc/tags/agent-security/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Claude Code Auto Mode：Anthropic 是怎么给 Agent 加上安全自治护栏的</title>
      <link>https://blog.lucasma.cc/posts/anthropic-claude-code-auto-mode-security-architecture/</link>
      <pubDate>Wed, 27 May 2026 22:03:07 +0800</pubDate>
      <guid>https://blog.lucasma.cc/posts/anthropic-claude-code-auto-mode-security-architecture/</guid>
      <description>&lt;p&gt;Claude Code 的 Auto Mode 看起来像一个很朴素的功能：少弹一点“是否允许执行”的确认框。但它背后其实是在解决 Agent 领域最难啃的问题之一：怎么让模型更自治，同时不把安全边界一起放飞。&lt;/p&gt;
&lt;p&gt;Anthropic 这篇文章的价值不在于“又多了一个模式”，而在于它把一个可落地的安全架构讲清楚了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;输入侧怎么防 prompt injection&lt;/li&gt;
&lt;li&gt;输出侧怎么拦危险动作&lt;/li&gt;
&lt;li&gt;什么操作可以直接放行，什么必须升级判断&lt;/li&gt;
&lt;li&gt;为什么要用“两层防线”，而不是只靠一个大模型拍脑袋&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这篇文章我会把它拆成一个更容易理解的工程视角。&lt;/p&gt;
&lt;h2 id=&#34;目录&#34;&gt;目录&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&#34;#auto-mode-%E8%A7%A3%E5%86%B3%E7%9A%84%E4%B8%8D%E6%98%AF%E8%83%BD%E4%B8%8D%E8%83%BD%E5%81%9A%E8%80%8C%E6%98%AF%E8%AF%A5%E4%B8%8D%E8%AF%A5%E6%89%93%E6%96%AD&#34;&gt;Auto Mode 解决的不是“能不能做”，而是“该不该打断”&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;#%E6%95%B4%E4%BD%93%E6%9E%B6%E6%9E%84%E8%BE%93%E5%85%A5%E6%89%AB%E6%8F%8F--%E8%BE%93%E5%87%BA%E5%88%86%E7%B1%BB%E5%99%A8&#34;&gt;整体架构：输入扫描 + 输出分类器&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;#anthropic-%E7%9C%BC%E9%87%8C%E7%9A%84%E5%9B%9B%E7%B1%BB%E9%A3%8E%E9%99%A9&#34;&gt;Anthropic 眼里的四类风险&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;#%E6%9D%83%E9%99%90%E5%88%86%E5%B1%82%E5%93%AA%E4%BA%9B%E5%8A%A8%E4%BD%9C%E5%85%88%E5%A4%A9%E5%B0%B1%E8%83%BD%E8%BF%87&#34;&gt;权限分层：哪些动作先天就能过&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;#%E4%B8%BA%E4%BB%80%E4%B9%88%E8%A6%81%E5%81%9A%E6%88%90%E5%BF%AB%E7%AD%9B--%E6%B7%B1%E5%88%A4&#34;&gt;为什么要做成“快筛 + 深判”&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;#%E5%AF%B9%E5%81%9A-agent-%E7%9A%84%E4%BA%BA%E6%9C%89%E4%BB%80%E4%B9%88%E5%90%AF%E5%8F%91&#34;&gt;对做 Agent 的人有什么启发&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;#%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99&#34;&gt;参考资料&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;auto-mode-解决的不是能不能做而是该不该打断&#34;&gt;Auto Mode 解决的不是“能不能做”，而是“该不该打断”&lt;/h2&gt;
&lt;p&gt;传统 Claude Code 的交互很安全：运行命令前问一次，改文件前问一次。问题是，Agent 一旦开始做长任务，用户会迅速进入“批准疲劳”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;点太多次，注意力下降&lt;/li&gt;
&lt;li&gt;看不清风险，直接机械确认&lt;/li&gt;
&lt;li&gt;真正危险的操作，反而更容易漏掉&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Anthropic 的判断很直接：纯手工审批太慢，完全放开又太危险。&lt;/p&gt;
&lt;p&gt;所以 Auto Mode 的目标不是取消安全，而是把安全从“人工按钮”升级成“模型辅助的决策链”。&lt;/p&gt;
&lt;pre class=&#34;mermaid&#34;&gt;flowchart LR
    U[用户请求] --&amp;gt; A[Claude Code]
    A --&amp;gt; B{是否需要执行动作?}
    B --&amp;gt;|一般动作| C[直接放行]
    B --&amp;gt;|可能危险| D[模型分类器判断]
    D --&amp;gt;|允许| C
    D --&amp;gt;|拒绝/阻断| E[提示用户确认或改写任务]
    A --&amp;gt; F[外部工具输出]
    F --&amp;gt; G[Prompt Injection Probe]
    G --&amp;gt; H[污染内容不直接进上下文]
&lt;/pre&gt;

&lt;h2 id=&#34;整体架构输入扫描--输出分类器&#34;&gt;整体架构：输入扫描 + 输出分类器&lt;/h2&gt;
&lt;p&gt;Auto Mode 不是单点防御，而是两层：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
