Computer Use for DeepSeek 深度拆解：本地沙箱电脑使用 Agent 是怎么搭起来的

Thu, 21 May 2026 21:45:48 +0800

如果你最近也在研究 computer use 这一类 Agent，Computer Use for DeepSeek 这个仓库很适合拿来做一遍工程拆解。

它不是一个“把模型接上浏览器就完事”的 demo，而是一套很明确的本地架构：Web UI 负责交互，FastAPI 负责状态和接口，AgentCore 负责模型循环，SafetyPolicy 负责拦截高风险动作，DockerRuntime 负责把操作发到隔离环境里执行，WorkspaceManager 负责把每个 run 的文件关进独立工作区。

我读完这个仓库后的感觉是：它的重点不在“多炫”，而在“怎么把一套 computer use 系统做得可运行、可审查、可控”。这篇文章就按这个思路拆开讲。

先看演示

浏览器任务

这个 demo 展示的是最典型的 computer use 场景：启动 run、让模型打开网站、观察远程桌面、看事件和状态变化。

文件工作区任务

这个 demo 更能体现工程思路：文件上传、工作区内处理、结果下载，全程不需要把整个用户目录暴露给 AI。

如果你只看一眼体验，这两个 GIF 基本就把项目价值讲完了。

一、先看结果：这套东西到底能干什么
二、整体架构：UI、API、Agent、Runtime 四层怎么协作
三、Agent 循环：每一步都在做什么
四、安全层：允许、确认、阻断是怎么分的
五、工作区隔离：文件为什么不会乱飞
六、这套实现的取舍
七、总结

一、先看结果：这套东西到底能干什么

仓库 README 里已经把目标说得很直接：用户在本地打开一个 Web 应用，输入任务，让 DeepSeek 去操作一台隔离电脑，过程中可以看远程桌面、上传文件、下载结果。

这意味着它解决的不是“聊天”，而是“执行”。

你可以把它理解成一个本地版 computer use 运行时：

用户在浏览器里下达任务
后端把任务交给 DeepSeek
模型决定下一步要点哪、敲什么、读什么
真正的鼠标键盘动作在沙箱里执行
结果再回到模型，继续下一轮

这类系统最难的地方，从来不是“能不能调用 API”，而是：

Computer Use on Lucas Ma 的博客

Computer Use for DeepSeek 深度拆解：本地沙箱电脑使用 Agent 是怎么搭起来的

先看演示

浏览器任务

文件工作区任务

目录

一、先看结果：这套东西到底能干什么