Vibe Working：当"跟 Agent 说一句话"真的管用的时候

前三篇文章，我们走了一条线：从 OpenClaw 这个产品 → 到 Brain-Body-Soul 的架构 → 到 Skills + Gateway + MCP 的能力栈。

我们一直说”Skills 会改变日常工作”。是时候拿出来看看了。

一、微软管它叫 Vibe Working

2025 年 9 月 29 日，微软在 Microsoft 365 Copilot 里上线了两个新功能，并给它们起名：Vibe Working。

Agent Mode 进了 Excel 和 Word。你输入一句话——“帮我做一个贷款摊销计算器，按月拆分还款明细”——Agent 不止是给你一个公式。它会创建工作表、写公式、生成图表、验证结果、发现问题、自动修复，反复迭代直到输出通过校验。多步骤，自我纠错。

Office Agent 进了 Copilot 聊天窗口。你说*“用这个季度数据做一个能给董事会看的 PPT”*，它直接出一套成品幻灯片。不是一个带占位符的模板——是一份填好你真实数据、排好版的 deck。

这个名字可以追溯到 Andrej Karpathy。2025 年 2 月 2 日，这位 OpenAI 创始成员发推说：“有一种新的编程方式我称之为 ‘vibe coding’——你完全沉浸在氛围（vibe）中，拥抱指数级增长，甚至忘掉代码本身的存在。” 七个月后，微软把这个想法从代码搬到了电子表格、文档和幻灯片上：你提供意图，Agent 交付成品。

不用再跟 VLOOKUP 较劲了。不用再手动排 47 页 PPT 了。不用再在三个 Excel 和一个 Word 之间复制粘贴了。

至少，承诺是这样的。微软自家的 SpreadsheetBench 测试显示，Excel 中的 Agent Mode 在复杂任务上的准确率是 57.2%。比手动操作强，但离”完全可靠”还有很远的路。

二、承诺与现实

研究数据揭示了真实情况。

针对办公自动化的基准测试（如 SpreadsheetBench）让顶尖模型执行真实的工作流：筛选数据集、交叉核对表格、生成分析摘要。这些事情一个称职的办公人员每天闭着眼睛就能做。

即使是最强的系统，失败率也接近一半。 研究人员的结论很直白：性能仍然”远低于真实办公工作流所需的人类准确度标准”。

失败的模式很有意思：

操作重复——Agent 反复执行同一个动作，浪费 token，有时甚至破坏了已有的结果。
幻觉引用——它信心满满地编辑了一个只有 10 行的表格里的 B14 单元格。
应用切换失败——数据从 Excel 到 Word 再到邮件，上下文断裂的概率比你想的高得多。
长链路漂移——超过 10 个步骤的任务，Agent 会逐渐忘掉最初的目标。

但演示和日常工具之间的这个差距，不仅仅是技术问题。微软 AI 红队发布了一份 Agent 系统失效模式分类，最可怕的发现不是幻觉——而是人类监管的失效。

当 Agent 生成的表格看起来是对的，用户就不再检查公式了。当它起草的邮件读起来是对的，用户没细看就点了发送。真正的风险不是 Agent 搞错了，而是人类不再注意它错了。

这就是 Vibe Working 的核心张力：Agent 越能干，盲目信任它的风险就越大。

三、四个场景：改造前 vs 改造后

在深入我们的方案之前，先看看已经在真实世界中测得的数据。

一项 NBER 实地研究（已被 American Economic Review: Insights 有条件接收）追踪了 66 家公司的 7,137 名知识工作者，为期六个月。使用集成 AI 工具的员工在邮件上花费的时间减少了 25–31%——每周大约节省 2 到 3 小时。

摩根士丹利（Morgan Stanley） 的金融分析师在研究和报告准备上每天节省 1.5 小时。
Repsol 运行了一项 Copilot 试点，发现员工平均每周节省 121 分钟，且产出质量提升了 16.2%。
World Wide Technology 向 941 名用户部署了 Copilot，测得每周节省 446 小时——主要用于会议摘要、邮件起草和报告生成。

这些数字是真实的。但 NBER 研究中一个被忽视的发现同样重要：尽管在邮件上省了几个小时，员工整体任务的数量或构成并没有显著变化。员工可以加速他们独立控制的事情——但他们无法改变需要与他人协作的工作流。AI 加速了细胞，但没有重塑有机体。

这是关键洞察。现有工具节省的是单个应用内单个任务的时间。困难的部分——准确率掉到 50% 的部分——是当 Agent 需要跨多个应用串联任务并交付完整成品的时候。

这正是基于 Skills 的编排发挥作用的地方。以下是我们正在构建和测试的场景。

场景 1：季度销售报表

以前： 你从 CRM 里导出三个 CSV。粘到 Excel 里。花 40 分钟做透视表、写 SUMIFS 公式、加条件格式、画图表。然后把图表复制到 Word 里，写一段分析，发邮件给领导。全程耗时：约 2 小时。

现在： 你跟 Agent 说：“拉 Q4 的销售数据，按区域和产品线拆分，标出环比下降超过 15% 的部分，出一份带图表的报告。”

底层发生了什么：

一个 销售报表 Skill 被激活——它知道标准报表结构、哪些指标重要、怎么标异常。
Skill 编排 MCP 工具：一个连 CRM 数据库，一个写 Excel，一个生成 Word。
Gateway 管理整个会话——CRM 查询要 30 秒不会超时，Excel 写入失败会重试。
你拿到一份排好版的 Excel 和一份 Word 摘要。耗时：约 3 分钟。

Agent 没有临场发挥。它照着菜谱做菜——这个菜谱里编码了你们公司季度报表的结构。

场景 2：会议纪要

以前： 你坐了 45 分钟会议，潦草记了几笔。结束后花 20 分钟整理——按话题分类、提取 action item、发给参会人。有一半的时候你漏了东西，还得回去听录音。

现在： 你说：“把昨天产品同步会的录音转成文字，按话题整理，提取 action item（标上负责人和截止日期），然后把摘要发给所有参会人。”

底层发生了什么：

一个 会议纪要 Skill 被激活——它知道怎么区分决策、待办和背景讨论。
MCP 工具 负责转录（Whisper API）、查日历（谁参会了）、发邮件。
Skill 使用你们团队的格式——不是通用模板，是你们实际使用的纪要结构。

输出看起来像人写的，因为 Skill 是按你们团队写纪要的方式训练的。

场景 3：合同风险审查

以前： 法务发来 30 页供应商合同。你通读一遍。标出看着不太对的条款。和公司的标准条款交叉对比。写一份风险摘要。这事基本上要花半个下午。

现在： 你说：“用公司的标准条款审查这份供应商合同。标出偏差，按风险等级评分，给我一份能发给法务的摘要。”

底层发生了什么：

一个 合同审查 Skill 被激活——它知道你们公司的标准条款、常见风险模式、法务偏好的风险评级方式。
MCP 工具 负责 PDF 解析、文本提取和结构化对比。
Gateway 执行访问控制——合同数据留在安全运行时里，绝不离开沙箱。

4 分钟出一份结构化的风险报告。法务仍然做最终审核——Agent 替代的不是律师的判断，是判断之前那 3 小时的阅读和标注。

场景 4：邮件分拣

以前： 周一早上，127 封未读邮件。你花 45 分钟扫标题、打开邮件、在脑子里分类（紧急/知悉/需回复/垃圾），然后起草回复。等你处理完，又来了三封紧急邮件。

现在： 你说：“整理一下我的收件箱。直属下属和客户的紧急邮件标出来。只需要回’收到’的帮我起草回复。其余的用三句话概括。”

底层发生了什么：

一个 邮件分拣 Skill 被激活——它知道谁是你的直属下属、哪些客户是优先级、你语境里”紧急”是什么意思。
MCP 工具 连你的邮箱，拉消息，起草回复。
Gateway 确保没有邮件内容被存储到会话之外——任务结束，数据即焚。

6 分钟处理完 127 封邮件。你改了两封草稿，确认其他的，继续干别的事。

四、为什么能跑通（以及为什么还跑不通）

四个场景有一个共同模式，值得说明白。

跑通的原因：

Skill 编码了领域知识。 不是一个通用 prompt——是一套结构化指令，知道你们公司的报表格式、团队的纪要风格、法务的风险评级标准。这就是为什么基于 Skill 的方案比裸 prompt 靠谱。
MCP 工具解决连接问题。 Agent 不用自己”搞明白”怎么连 CRM 或者怎么解析 PDF。MCP 提供现成的、测试过的集成。Skill 指令”用这个工具”，MCP 处理协议层。
Gateway 让一切不掉链子。 会话状态不会在任务中途消失。某一步失败了 Gateway 会重试或回滚。权限是隔离的——合同审查 Skill 碰不到你的邮件，邮件 Skill 碰不到合同。

还跑不通的地方：

跨应用、多步骤的工作流。 当任务跨越 4 个以上应用时，通过率会显著下降。上下文碎片化是目前最大的未解难题。
模糊的意图。 “把这个报告搞好一点”不够用。Agent 需要明确的意图——“标出下降超过 15% 的指标”是可执行的，“做好看一点”不是。Vibe Working 要求用户说清楚”做完”是什么样子。
首次配置。 Skill 需要先学会你们公司的规矩才能复现它们。第一次季度报表要花心思配置。第 20 次只要 3 分钟。

五、现有方案差在哪

微软的 Vibe Working 功能是很好的演示。但当前方案有结构性限制。

Copilot 锁在微软生态里。 Agent Mode 在 Excel 和 Word 里跑。但你的数据可能在 Google Sheets，CRM 是 Salesforce，会议录音在飞书或 Otter.ai。你需要的是跨生态编排，不是在一个围墙花园里闭环。

没有跨会话的记忆。 Copilot 不记得上个月的报告用了什么图表样式，也不知道法务偏好三级风险评分。每次会话从头开始。Skill 解决这个问题——知识在 Skill 文件里，不在会话里。

没有安全隔离。 Copilot 处理你的供应商合同时，数据去了哪里？走的 OpenAI 的 API？Anthropic 的？（微软两个都用。）事实上，微软文档明确指出：Microsoft 365 Copilot 中的 Anthropic 模型明确不属于欧盟数据边界（EU Data Boundary）的范畴。如果你是运行 Agent Mode 的欧洲企业，部分数据可能会在美国 AWS 上处理。涉及敏感文档的时候，你需要一个有明确数据边界的运行时——有沙箱的 Gateway，不是一个连着云端 API 的聊天窗口。

准确率还不是产品级的。 SpreadsheetBench 显示 Excel 任务准确率为 57.2%——而且这是微软自家的功能在基准测试上的表现。学术研究（如 SheetBrain, SheetAgent）表明，即使是专用的神经符号系统也需要显式的验证模块来防止数据损坏。光靠模型的原生智商，无论多强，还不足以支撑生产级的办公自动化。

六、我们的做法

AgentPuter 的 Vibe Working 能力栈有三层——和上一篇文章一样：

Skills 定义每个场景的剧本。销售报表 Skill、会议纪要 Skill 和合同审查 Skill 各不相同。每个都编码了特定的领域知识、步骤序列、工具要求和输出格式。

Agent Gateway 编排执行。它加载正确的 Skill，路由 MCP 工具调用，管理会话状态，执行权限，处理失败。Gateway 是系统在 12 步工作流的第 7 步不崩溃的原因。

MCP 工具 负责实际连接——数据库查询、文件读写、邮件 API、日历查找、PDF 解析。标准化、测试过、容器化。

和 Copilot 比，三个不同点：

生态中立。 我们的 Gateway 跨 Google Workspace、Microsoft 365、Salesforce、Slack、Notion——你的数据在哪，我们就去哪。不锁定任何一个生态。
持久化知识。 Skill 跨会话记住你的规矩。第 20 次季度报表和第 2 次一样快，因为 Skill 已经知道你的格式、指标和受众。
安全优先的运行时。 每个 Skill 在沙箱里执行。合同数据碰不到邮件 Skill 的上下文。会话数据默认临时存储，除非显式持久化。每一步都有审计日志。

写在最后

Vibe Working 是一个好名字。你说一句话，Agent 交付成品——这就是所有人在建的终局。

但实话实说：我们还没到那一步。Demo 和日常工具之间的鸿沟是真实的。办公工作流 ~50% 的通过率说明：光靠模型的智商不够。

弥合这个差距靠的不是更聪明的模型，是模型周围的基础设施：

Skills 用经过验证的流程约束 Agent，而不是让它自由发挥
Gateway 让多步骤任务不脱轨——有重试、有回滚、有访问控制
MCP 工具 提供测试过的、可靠的集成，而不是让 Agent 自己去摸索 API

四篇文章下来，我们从拆一个爆款开源项目开始，一步步拼出了 Agent 基础设施到底需要什么。

结论其实很简单：帮你做季度报表的那个 Agent，不比 ChatGPT 更聪明。它只是有更好的指令、更可靠的运行时、和正确接入的工具。 那项 NBER 研究里的 7,137 名员工不需要更聪明的模型。他们需要的是围绕现有模型构建的更好基础设施。

这就是 Vibe Working。不是氛围（Vibes）。是基础设施（Infrastructure）。

这是系列的第四篇。我们从 OpenClaw 讲到了 Skills 和 MCP，现在回到地面看能力栈实际交付了什么。接下来，我们将转向商业模式：如何通过 Agent 平台真正赚钱？如果你有一个想被自动化的办公流程——或者你试过但没搞定的——我们很想听听。