<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Computer Use on Lucas Ma 的博客</title>
    <link>https://blog.lucasma.cc/tags/computer-use/</link>
    <description>Recent content in Computer Use on Lucas Ma 的博客</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>2026 Lucas Ma</copyright>
    <lastBuildDate>Thu, 21 May 2026 21:45:48 +0800</lastBuildDate>
    <atom:link href="https://blog.lucasma.cc/tags/computer-use/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Computer Use for DeepSeek 深度拆解：本地沙箱电脑使用 Agent 是怎么搭起来的</title>
      <link>https://blog.lucasma.cc/posts/computer-use-for-deepseek-architecture/</link>
      <pubDate>Thu, 21 May 2026 21:45:48 +0800</pubDate>
      <guid>https://blog.lucasma.cc/posts/computer-use-for-deepseek-architecture/</guid>
      <description>&lt;p&gt;如果你最近也在研究 computer use 这一类 Agent，&lt;code&gt;Computer Use for DeepSeek&lt;/code&gt; 这个仓库很适合拿来做一遍工程拆解。&lt;/p&gt;
&lt;p&gt;它不是一个“把模型接上浏览器就完事”的 demo，而是一套很明确的本地架构：Web UI 负责交互，FastAPI 负责状态和接口，AgentCore 负责模型循环，SafetyPolicy 负责拦截高风险动作，DockerRuntime 负责把操作发到隔离环境里执行，WorkspaceManager 负责把每个 run 的文件关进独立工作区。&lt;/p&gt;
&lt;p&gt;我读完这个仓库后的感觉是：它的重点不在“多炫”，而在“怎么把一套 computer use 系统做得可运行、可审查、可控”。这篇文章就按这个思路拆开讲。&lt;/p&gt;
&lt;h2 id=&#34;先看演示&#34;&gt;先看演示&lt;/h2&gt;
&lt;h3 id=&#34;浏览器任务&#34;&gt;浏览器任务&lt;/h3&gt;
&lt;p&gt;&lt;img alt=&#34;浏览器任务演示&#34; loading=&#34;lazy&#34; src=&#34;https://blog.lucasma.cc/images/posts/computer-use-for-deepseek/demo1.gif&#34;&gt;&lt;/p&gt;
&lt;p&gt;这个 demo 展示的是最典型的 computer use 场景：启动 run、让模型打开网站、观察远程桌面、看事件和状态变化。&lt;/p&gt;
&lt;h3 id=&#34;文件工作区任务&#34;&gt;文件工作区任务&lt;/h3&gt;
&lt;p&gt;&lt;img alt=&#34;文件工作区任务演示&#34; loading=&#34;lazy&#34; src=&#34;https://blog.lucasma.cc/images/posts/computer-use-for-deepseek/demo2.gif&#34;&gt;&lt;/p&gt;
&lt;p&gt;这个 demo 更能体现工程思路：文件上传、工作区内处理、结果下载，全程不需要把整个用户目录暴露给 AI。&lt;/p&gt;
&lt;p&gt;如果你只看一眼体验，这两个 GIF 基本就把项目价值讲完了。&lt;/p&gt;
&lt;h2 id=&#34;目录&#34;&gt;目录&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;一、先看结果：这套东西到底能干什么&lt;/li&gt;
&lt;li&gt;二、整体架构：UI、API、Agent、Runtime 四层怎么协作&lt;/li&gt;
&lt;li&gt;三、Agent 循环：每一步都在做什么&lt;/li&gt;
&lt;li&gt;四、安全层：允许、确认、阻断是怎么分的&lt;/li&gt;
&lt;li&gt;五、工作区隔离：文件为什么不会乱飞&lt;/li&gt;
&lt;li&gt;六、这套实现的取舍&lt;/li&gt;
&lt;li&gt;七、总结&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;一先看结果这套东西到底能干什么&#34;&gt;一、先看结果：这套东西到底能干什么&lt;/h2&gt;
&lt;p&gt;仓库 README 里已经把目标说得很直接：用户在本地打开一个 Web 应用，输入任务，让 DeepSeek 去操作一台隔离电脑，过程中可以看远程桌面、上传文件、下载结果。&lt;/p&gt;
&lt;p&gt;这意味着它解决的不是“聊天”，而是“执行”。&lt;/p&gt;
&lt;p&gt;你可以把它理解成一个本地版 computer use 运行时：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;用户在浏览器里下达任务&lt;/li&gt;
&lt;li&gt;后端把任务交给 DeepSeek&lt;/li&gt;
&lt;li&gt;模型决定下一步要点哪、敲什么、读什么&lt;/li&gt;
&lt;li&gt;真正的鼠标键盘动作在沙箱里执行&lt;/li&gt;
&lt;li&gt;结果再回到模型，继续下一轮&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类系统最难的地方，从来不是“能不能调用 API”，而是：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
