软件变革前夜，你的 Agent 需要一台 AgentPuter

一、引言：软件正在被重新定义

过去四十年，软件的核心交互范式从未真正改变过：人类操作软件，软件执行指令。

无论是 1984 年 Macintosh 上的图形界面，还是 2024 年最新的 SaaS 产品，底层逻辑都是一样的——人类点击按钮、填写表单、拖拽文件，软件忠实地执行这些操作。软件是工具，人类是操作者。

但 2024-2025 年，一些事情开始发生变化。

Claude Computer Use 让 AI 可以像人一样操作电脑。OpenAI Operator 让 AI 可以自主浏览网页、完成任务。无数创业公司开始构建 AI Agent，试图让 AI 替人类完成工作。

一个新的范式正在浮现：Agent 操作软件，人类下达指令。

这听起来很美好。但当我们真正开始尝试让 Agent 替我们工作时，一个核心问题浮出水面：

Agent 在哪里”生活”和”工作”？

它没有自己的电脑，没有自己的桌面，没有自己的文件系统。每次对话结束，它就”消失”了。下次再来，又要从头开始。

这篇文章想要探讨的，就是这个问题的答案：你的 Agent，需要一台属于它的电脑——AgentPuter。

二、近期信号：变革已经开始

在讨论解决方案之前，让我们先看看正在发生什么。三个近期事件，清晰地描绘了软件行业的变革图景。

2.1 Claude 杀入 Excel，软件股集体承压

2025 年 10 月，Anthropic 发布了 Claude for Excel。

这不是一个简单的”AI 助手”。金融专业人士可以在 Excel 侧边栏直接与 Claude 对话，让它分析、修改、甚至从零创建整个工作簿。用自然语言提问，Claude 会返回带有单元格级别引用的答案。公式出错？让 Claude 帮你调试。想测试一个金融场景？描述一下，Claude 直接帮你建模。

更关键的是，Anthropic 同时接入了 7 个实时市场数据连接器——Aiera、Chronograph、Egnyte 等。这意味着 Claude 不只是能操作 Excel，还能直接获取实时金融数据。

这是对 Microsoft Copilot 的正面宣战。

核心信号：AI 不再满足于做”辅助工具”。它要直接进入用户的核心工作流，成为工作流的主导者。

2.2 法律科技股的”AI泡沫”破裂

如果说 Claude Excel 展示了 AI 的进攻姿态，那么 2025 年下半年的法律科技股崩盘，则展示了”防守方”的溃败。

Robin AI，曾经的法律 AI 明星公司，在 2024 年初完成了 2600 万美元的 B 轮融资，估值一度高企。但到了 2025 年底，它错过了 5000 万美元的后续融资，裁员三分之一，最终被放到困境市场出售。更讽刺的是，离职员工透露：Robin AI 营销吹的是 AI 自动审合同，实际上大量工作是人工处理的。

Thomson Reuters，法律信息服务的老牌巨头，其股价从 2025 年 7 月中旬以来暴跌超过 30%。市场开始质疑：它的 AI 法律产品 CoCounsel，相比直接用 ChatGPT，到底有什么优势？

Docusign，电子签名领域的领导者，股价在 2025 年 12 月暴跌 18%。原因是其 AI 驱动的新平台采用速度远低于预期——用户并不买账。

Robot Consulting，一家法律科技公司，IPO 几个月后就被 Nasdaq 停止交易，SEC 介入调查。

核心信号：单纯”给软件加 AI”是不够的。用户要的是实实在在完成任务，而不是花哨的 Demo 和营销话术。如果 AI 只是锦上添花，用户会直接去用 ChatGPT。

2.3 OpenClaw 崛起：端侧私人助理的野蛮生长

与传统软件公司的困境形成鲜明对比的是，一个开源项目正在野蛮生长。

OpenClaw（前身为 Clawdbot、Moltbot），一个端侧运行的私人 AI 助理平台，在 2026 年初已经拿下了 GitHub 174K Stars，28K+ Forks——首周就吸引了 200 万访客，收获了 145K+ Stars，成为有史以来增长最快的开源项目之一。CNBC 称它”generating buzz and fear globally”——全球引发热议和恐慌。

OpenClaw 是什么？简单说，它让你可以在自己的设备上（Mac mini、Linux 服务器、Raspberry Pi、甚至 VPS）运行一个私人 AI 助理。你通过 Telegram、WhatsApp、Discord 或 iMessage 给它发消息，它就帮你执行真实任务——不是聊天，是干活。

它能做什么？执行 Shell 命令、访问文件系统、调用各种 API。有人用它管理个人财务（hledger），有人用它管理任务（Linear），有人用它控制家庭服务器（NixOS NAS via SSH），有人用它管理媒体库（Jellyseerr）。更强大的是，用户可以创建自定义 Skills——就是 Markdown 文件——来教 Agent 使用新工具。

核心信号：用户不需要”更好的软件”。用户需要的是能帮他干活的 Agent。OpenClaw 证明了这一点——而且它是开源的，跑在用户自己的设备上。

2.4 三个信号指向同一个结论

信号	说明
Claude Excel	AI 直接进入工作流，传统软件的护城河正在瓦解
法律科技股崩盘	”AI 增强”不够，用户要的是任务完成，不是功能堆砌
OpenClaw 爆发	端侧 Agent 已经能处理真实办公场景，而且是开源的

这三件事指向同一个结论：软件变革不是”即将到来”，而是正在发生。

问题不再是”要不要做 AI”，而是”给 Agent 一个什么样的家”。

三、回顾：软件形态的三次变革

要理解 AgentPuter 的意义，我们需要先回顾软件形态的演变历史。

3.1 本地软件时代（1980s-2000s）

软件安装在本地，数据存在本地。

你买一张光盘，把 Microsoft Office 装到电脑上。文档存在硬盘里，换一台电脑就打不开了。软件是”产品”，你买断它，它属于你。

这个时代的代表是 Microsoft Office、Adobe Photoshop、AutoCAD。

特点：强大但孤立。你的数据被锁在一台电脑里。

3.2 云端 SaaS 时代（2000s-2020s）

软件跑在云端，浏览器是入口。

你不需要安装任何东西，打开浏览器就能用。数据存在云上，换一台电脑照样能访问。软件变成了”服务”，你按月付费，它随时可用。

这个时代的代表是 Google Docs、Figma、Notion、Slack。

特点：便捷但依赖网络。你的数据在别人的服务器上。

3.3 AI 原生时代（2020s-?）

软件为 AI 设计，Agent 是第一用户。

这是我们正在进入的时代。软件不再只是等待人类操作的工具，而是 Agent 可以直接调用的能力。人类从”操作者”变成”指挥者”。

这个时代的代表是……？

这正是 AgentPuter 要回答的问题。

四、Agent 的困境：有能力，没地方施展

今天的 AI Agent 已经相当强大。它能做什么？

4.1 Agent 能做什么？

理解自然语言指令：你用日常语言告诉它要做什么，它能理解
分解复杂任务：一个大任务，它能拆成多个小步骤，逐一完成
调用工具完成工作：搜索网页、读写文件、调用 API、操作软件
自主决策和纠错：遇到问题能想办法解决，不需要你手把手指导

从能力上看，Agent 已经可以当一个初级员工用了。但问题是——

4.2 Agent 缺什么？

没有”身体”。Agent 只能通过 API 或屏幕截图与软件交互。它没有自己的鼠标键盘，没有自己的显示器。要操作一个软件，要么软件提供 API（大多数不提供），要么 Agent 得截图看屏幕、模拟点击（效率极低）。

没有”家”。每次对话都是从零开始。上次帮你整理的文件在哪？不知道。上次研究到一半的报告？丢了。Agent 没有持久化的环境，没有自己的”桌面”和”文件夹”。

没有”工作台”。现有软件是为人类设计的。有精美的 UI、复杂的交互、各种视觉反馈。但 Agent 不需要这些——它需要的是清晰的接口、稳定的状态、可预测的行为。人类的”好用”和 Agent 的”好用”，是两回事。

4.3 现状的尴尬

目前主流的解决方案都有明显的局限：

Computer Use（截图+点击）：让 Agent 像人一样看屏幕、点鼠标。听起来万能，实际上效率极低——截一张图、分析、决定点哪里、执行点击、再截图看结果……一个简单操作要好几秒。而且容易出错，UI 稍微变一下就可能点错地方。

MCP / Function Calling：给 Agent 提供 API 接口。效率高，但覆盖有限——得软件厂商愿意开放接口才行。大多数软件没有这样的接口，或者接口能力有限。

插件模式：Agent 作为软件的”插件”存在。但这样一来，Agent 是”客人”，软件是”主人”。Agent 能做什么，完全取决于软件愿意开放什么。

这些方案的共同问题是：Agent 始终是寄人篱下的。它没有自己的领地，没有自己的主权。

五、AgentPuter：给 Agent 一台专属电脑

如果 Agent 需要一个家，那就给它造一个。

5.1 什么是 AgentPuter？

AgentPuter 是一个为 Agent 设计的计算环境。

在这个环境里，Agent 是第一公民。软件、文件、接口，都是为 Agent 设计的。人类是观察者和指挥者——你告诉 Agent 要做什么，然后看它做，必要时介入调整。

这不是模拟人类操作（像 Computer Use 那样），而是原生支持 Agent 操作。Agent 不需要”看屏幕”，因为没有屏幕；不需要”点鼠标”，因为可以直接调用接口。

5.2 AgentPuter 的核心理念

传统软件	AgentPuter
为人类设计 UI	为 Agent 设计 API + UI（人类用来观察）
人类点击操作	Agent 直接调用接口
文件存在本地/云端	文件在 Agent 可访问的专属空间
一次性对话	持久化 Agent 工作区

一句话总结：传统软件是人类的工具，AgentPuter 是 Agent 的电脑。

5.3 AgentPuter 的核心价值主张

AgentPuter 不仅仅是功能的堆叠，它在价值链中承担了五个关键角色：

1. 隐私防火墙 (Privacy Proxy) 这是 AgentPuter 对用户最大的价值。你不敢把银行卡密码直接发给 ChatGPT，但你可以放心地交给本地运行的 AgentPuter。它充当了用户与大模型之间的”中间人”，负责数据的脱敏和鉴权，确保核心数据主权（Data Ownership）始终在用户手中。

2. 记忆管理员 (Context Manager) LLM 是健忘的，而 AgentPuter 是记性好的。它将你的长期工作流、个人偏好、历史文件转化为结构化的”长期记忆”。在与 LLM 交互时，它只提取当前任务必要的上下文，既节省了昂贵的 Token 费用，又提高了任务执行的准确度。

3. 原生 Agent 接口 (Unified Interface) AgentPuter 里的每个功能——从文档处理到邮件收发——都封装成了 Agent 原生可调用的标准工具（Tools）。它屏蔽了底层 API 的复杂性，让 Agent 可以像人类使用鼠标一样自然地调用能力。

4. 持久化工作区 (Persistent Workspace) Agent 有自己的”桌面”。上次处理到一半的文件、研究收集的资料、工作产生的中间结果——都保存在这里。下次对话继续，不用从头开始。

5. 可问责的黑匣子 (Accountability) 虽然 Agent 是主角，但人类可以随时看到 Agent 在做什么。AgentPuter 记录了所有的决策链路和操作日志。当 Agent 进行敏感操作（如转账、删除文件）时，系统会自动暂停并请求人类确认（Human-in-the-loop）。

5.4 OpenClaw 给我们的启示

OpenClaw 的爆发证明了 AgentPuter 方向的正确性。但它也暴露了一些问题，这正是 AgentPuter 可以做得更好的地方：

OpenClaw 做到了	AgentPuter 可以做得更好
端侧运行，隐私可控	同样端侧优先，但更易部署（不需要技术背景）
自定义 Skills（Markdown 文件）	更丰富的能力市场，可视化编排
消息 App 触发	多入口：消息、语音、桌面应用、快捷指令
技术用户友好	普通用户也能用
单 Agent	多 Agent 协作

OpenClaw 证明了需求存在，AgentPuter 要做的是让这个能力普惠化。

六、AgentPuter 的应用场景

AgentPuter 不是空中楼阁。让我们看看它在具体场景中能做什么。

6.1 办公场景

传统方式：你打开 Word 写文档，打开 Excel 做表格，打开 Outlook 发邮件。每个软件都要自己操作。

Claude Excel 方式：你在 Excel 里用 AI 助手帮你分析数据。但其他软件呢？还得自己来。

AgentPuter 方式：你告诉 Agent：“把上周的销售数据整理成报告，发给老板。” Agent 自己去取数据、做分析、写报告、排版、发邮件。你只需要最后审核一下。

区别在于：Claude Excel 是”AI 进入软件”，AgentPuter 是”软件围绕 Agent 设计”。前者是锦上添花，后者是范式转移。

6.2 研究场景

传统方式：打开几十个网页标签，复制粘贴到笔记软件，自己整理归纳。

AgentPuter 方式：你说”研究一下 2025 年新能源汽车市场趋势”。Agent 自主搜索、阅读文章、整理要点、输出报告。它有自己的”研究笔记本”，过程和结果都保存下来，下次可以继续深入。

6.3 开发场景

传统方式：你写代码、跑测试、修 bug、部署上线。每一步都要自己来。

AgentPuter 方式：Agent 有自己的开发环境、代码仓库。你描述需求，它写代码、跑测试、修 bug。遇到问题会来问你，但大部分工作自己搞定。

6.4 创意场景

传统方式：在 Figma 里一点点拖拽设计，在 Photoshop 里一层层调整效果。

AgentPuter 方式：Agent 有自己的”画布”和”素材库”。你描述想要的效果，它生成初稿、迭代调整、保存版本。你像艺术总监一样指导方向，Agent 像设计师一样执行。

七、AgentPuter vs 现有方案对比

维度	Computer Use	MCP/插件	Claude Excel	OpenClaw	AgentPuter
交互方式	截图+点击	API调用	侧边栏对话	消息触发	原生 Agent 接口
效率	低	中	中高	高	高
持久化	无	有限	有限	有（本地）	完整工作区
人类可见性	可见但难理解	不可见	可见	部分可见	可见且可理解
覆盖范围	理论上全覆盖	依赖厂商	仅 Excel	可扩展 Skills	专为 Agent 设计
部署方式	云端	云端	云端	端侧	端侧优先
用户门槛	低	中	低	高（技术向）	低

总结：

Computer Use 是万能但低效的下策
MCP/插件 依赖厂商开放，覆盖有限
Claude Excel 是单点突破，但只覆盖 Excel
OpenClaw 方向正确，但门槛太高
AgentPuter 结合了 OpenClaw 的理念和普惠化的目标

八、技术架构思考

（本章为可选深度内容，面向技术读者）

8.1 总体架构：价值链的核心枢纽

AgentPuter 的技术架构不仅是分层设计，更是连接”人类模糊意图”与”确定性工作成果”的中间件。它向下屏蔽了复杂的 API 和环境细节，向上提供了简单自然的交互接口。

这种架构设计确保了数据流向的清晰：意图输入 -> 编排解析 -> 能力执行 -> 结果输出。

用户入口层：支持多种方式触发 Agent——消息应用（Telegram、WhatsApp、iMessage）、语音助手、桌面应用、系统快捷指令、直接 API 调用。用户可以随时随地与自己的 Agent 交互。

Agent 编排层：这是 AgentPuter 的”大脑”。接收用户意图后，进行任务规划、分解成可执行的步骤、调度具体的能力模块执行、管理整体状态。支持多个 Agent 协作——一个 Agent 负责搜索，另一个负责整理，第三个负责输出。

能力执行层：具体的执行能力模块，每个模块负责一类任务。关键能力包括：

文档处理：创建、编辑、格式化文档（Word/Docs）
表格计算：数据分析、公式计算、图表生成（Excel/Sheets）
邮件收发：读取、撰写、发送邮件
网络访问：搜索、抓取、API 调用
代码执行：运行脚本、自动化任务
日程管理：日历读写、会议安排
文件操作：上传、下载、整理文件
第三方 API：连接 Notion、Slack、Linear 等服务

能力层还支持 Skills 扩展市场——用户可以创建自定义 Skills（类似 OpenClaw 的 Markdown Skills），也可以从市场下载他人分享的 Skills。

数据持久层：Agent 的”记忆”和”档案柜”。包括：

文件系统：Agent 的工作区文件、版本历史
状态数据库：授权凭证（OAuth Token 自动续期）、操作日志（支持回滚）
向量存储：语义检索能力，让 Agent 可以”记住”之前处理过的内容

数据层遵循 本地优先 原则——数据优先存储在用户控制的环境中，端到端加密。

8.2 关键技术挑战与解决思路

挑战	问题描述	解决思路
文档结构理解	Word/Excel 不只是文本，有复杂的格式和结构	专门的文档解析器 + 结构化中间表示
授权持久化	OAuth Token 过期、Session 失效	安全存储 + 自动刷新 + 健康检查
操作可逆性	Agent 做错了怎么办	操作日志 + 状态快照 + 选择性回滚
多 Agent 协作	避免冲突、共享信息、协调任务	共享工作区 + 消息队列 + 锁机制
隐私安全	用户数据不能泄露	端侧优先 + 端到端加密 + 最小权限
性能扩展	大量用户、大量 Agent	容器化部署 + 水平扩展 + 异步执行

8.3 部署架构：端侧优先 + 云端可选

端侧优先：默认情况下，AgentPuter 在用户设备本地运行，数据不离开用户控制。

云端可选：用户可以选择启用云端 Pod，实现：

设备关机时 Agent 继续运行
跨设备无缝切换
重度计算任务云端执行

两种模式可以混合使用，用户完全掌控数据存储位置。

九、展望：软件的未来形态

9.1 软件会变成什么样？

每个人都有自己的 Agent 团队。不是一个 Agent，是一群。有的擅长写作，有的擅长数据分析，有的擅长设计。它们在你的 AgentPuter 里协作，完成各种任务。

软件成为 Agent 的”技能”。Office 不再是你用的软件，而是 Agent 拥有的能力。“我的 Agent 会用 Excel”——就像”我的员工会用 Excel”一样自然。

人类从”操作者”变成”指挥者”。你不再需要知道怎么在 Excel 里写 VLOOKUP，你只需要知道你想要什么结果。操作的细节，交给 Agent。

9.2 我们的思考和行动

为什么我们关注这个方向？

作为办公软件公司，我们观察到一个有趣的现象：用户想要拥有自己的 AI Agent（如 ClawBot、OpenClaw），但面临一系列现实困境：

困境	具体表现
设备无法长期在线	MacBook 合盖、电脑关机 = Agent 断线，无法实现真正的 7×24 自动化
授权频繁失效	OAuth Token 过期、Session 失效，每次重启都要重新登录、重新授权
本地资源被占用	Agent 占用 CPU/内存，影响日常工作；想同时跑多个 Agent？电脑先卡死
无法远程访问	出门在外无法访问 Agent，错过重要信息，无法及时响应

我们的判断：

“给软件加 AI”是守城，“给 Agent 造电脑”是攻城
- Claude Excel、Copilot 是 AI 进入传统软件
- AgentPuter 是为 Agent 重新设计软件——这是更大的机会
端侧优先，但不止于端侧
- OpenClaw 证明了端侧 Agent 的可行性，但门槛太高（需要技术背景）
- 我们要做的是：让普通用户也能拥有自己的 AgentPuter
办公场景是最佳切入点
- Agent 最常见的任务：处理文档、表格、邮件、日程
- 这正是办公软件公司的核心能力所在

核心理念：

用户不需要”更好的办公软件”，用户需要的是能帮他完成办公任务的 Agent——而 Agent 需要一台属于它的电脑。

我们的使命：让每个人都能拥有自己的 AgentPuter，让 AI Agent 真正 7×24 为你工作。

十、结语：从操作者到指挥官

软件变革的前夜，最大的机会是重新定义”人机交互”。

在 PC 时代，人是操作者（Operator），操作系统是工具，我们是 CPU，一旦我们累了，工作就停了。在 AI 时代，人应该是指挥官（Commander），Agent 是数字员工，而 AgentPuter 则是 24 小时运转的数字工厂。

过去四十年，我们给人类造了无数工具——文字处理器、电子表格、邮件客户端。这些工具把人变成了熟练工。这一次，我们不只是给人类造工具，而是给 Agent 造一台电脑，把人从工具人还原为创造者。

AgentPuter 不是一个产品名，而是一种全新的思考模型： 人 (CEO) ——> AgentPuter (数字工厂) ——> 工作成果 (交付)

法律科技股的崩盘、Claude Excel 的入侵、OpenClaw 的爆发——这三件事告诉我们：变革已经开始。你的 Agent，值得一台属于它的电脑。

参考/延伸阅读

近期事件

Anthropic rolls out Claude AI for finance, integrates with Excel (VentureBeat, 2025.10)
Is the Collapse of Robin.AI a Sign of a Legal Tech AI Bubble? (GeekLawBlog, 2025.11)
From Clawdbot to OpenClaw: Meet the AI agent generating buzz and fear globally (CNBC, 2026.02)
Docusign Stock Sinks as Firm Cuts Billings Outlook on Switch to AI Platform (Investopedia, 2025.12)
Thomson Reuters shares fall 30%+ amid AI product questions (Business Insider, 2025.11)

技术背景

Anthropic Computer Use 发布
OpenAI Operator 发布
MCP（Model Context Protocol）
OpenClaw GitHub: https://github.com/moltbot/clawdbot (174K Stars)