#Vibe Working #Office Skills #AgentPuter #效率工具 #AI Agent

Vibe Working:当"跟 Agent 说一句话"真的管用的时候

企业 AI 每天能帮分析师省下 1.5 小时——但最好的 Agent 在多应用任务上仍然有 50% 的失败率。单点提效和端到端自动化之间的这道鸿沟,就是真正的机会。

@ AgentPuter Lab
$
~ 阅读 12 min

前三篇文章,我们走了一条线:从 OpenClaw 这个产品 → 到 Brain-Body-Soul 的架构 → 到 Skills + Gateway + MCP 的能力栈。

我们一直说”Skills 会改变日常工作”。是时候拿出来看看了。


一、微软管它叫 Vibe Working

2025 年 9 月 29 日,微软在 Microsoft 365 Copilot 里上线了两个新功能,并给它们起名:Vibe Working

Agent Mode 进了 Excel 和 Word。你输入一句话——“帮我做一个贷款摊销计算器,按月拆分还款明细”——Agent 不止是给你一个公式。它会创建工作表、写公式、生成图表、验证结果、发现问题、自动修复,反复迭代直到输出通过校验。多步骤,自我纠错。

Office Agent 进了 Copilot 聊天窗口。你说*“用这个季度数据做一个能给董事会看的 PPT”*,它直接出一套成品幻灯片。不是一个带占位符的模板——是一份填好你真实数据、排好版的 deck。

这个名字可以追溯到 Andrej Karpathy。2025 年 2 月 2 日,这位 OpenAI 创始成员发推说:“有一种新的编程方式我称之为 ‘vibe coding’——你完全沉浸在氛围(vibe)中,拥抱指数级增长,甚至忘掉代码本身的存在。” 七个月后,微软把这个想法从代码搬到了电子表格、文档和幻灯片上:你提供意图,Agent 交付成品。

不用再跟 VLOOKUP 较劲了。不用再手动排 47 页 PPT 了。不用再在三个 Excel 和一个 Word 之间复制粘贴了。

至少,承诺是这样的。微软自家的 SpreadsheetBench 测试显示,Excel 中的 Agent Mode 在复杂任务上的准确率是 57.2%。比手动操作强,但离”完全可靠”还有很远的路。


二、承诺与现实

研究数据揭示了真实情况。

针对办公自动化的基准测试(如 SpreadsheetBench)让顶尖模型执行真实的工作流:筛选数据集、交叉核对表格、生成分析摘要。这些事情一个称职的办公人员每天闭着眼睛就能做。

即使是最强的系统,失败率也接近一半。 研究人员的结论很直白:性能仍然”远低于真实办公工作流所需的人类准确度标准”。

失败的模式很有意思:

  • 操作重复——Agent 反复执行同一个动作,浪费 token,有时甚至破坏了已有的结果。
  • 幻觉引用——它信心满满地编辑了一个只有 10 行的表格里的 B14 单元格。
  • 应用切换失败——数据从 Excel 到 Word 再到邮件,上下文断裂的概率比你想的高得多。
  • 长链路漂移——超过 10 个步骤的任务,Agent 会逐渐忘掉最初的目标。

但演示和日常工具之间的这个差距,不仅仅是技术问题。微软 AI 红队发布了一份 Agent 系统失效模式分类,最可怕的发现不是幻觉——而是人类监管的失效

当 Agent 生成的表格看起来是对的,用户就不再检查公式了。当它起草的邮件读起来是对的,用户没细看就点了发送。真正的风险不是 Agent 搞错了,而是人类不再注意它错了。

这就是 Vibe Working 的核心张力:Agent 越能干,盲目信任它的风险就越大。


三、四个场景:改造前 vs 改造后

在深入我们的方案之前,先看看已经在真实世界中测得的数据。

一项 NBER 实地研究(已被 American Economic Review: Insights 有条件接收)追踪了 66 家公司的 7,137 名知识工作者,为期六个月。使用集成 AI 工具的员工在邮件上花费的时间减少了 25–31%——每周大约节省 2 到 3 小时。

  • 摩根士丹利(Morgan Stanley) 的金融分析师在研究和报告准备上每天节省 1.5 小时
  • Repsol 运行了一项 Copilot 试点,发现员工平均每周节省 121 分钟,且产出质量提升了 16.2%。
  • World Wide Technology 向 941 名用户部署了 Copilot,测得每周节省 446 小时——主要用于会议摘要、邮件起草和报告生成。

这些数字是真实的。但 NBER 研究中一个被忽视的发现同样重要:尽管在邮件上省了几个小时,员工整体任务的数量或构成并没有显著变化。员工可以加速他们独立控制的事情——但他们无法改变需要与他人协作的工作流。AI 加速了细胞,但没有重塑有机体。

这是关键洞察。现有工具节省的是单个应用内单个任务的时间。困难的部分——准确率掉到 50% 的部分——是当 Agent 需要跨多个应用串联任务并交付完整成品的时候。

这正是基于 Skills 的编排发挥作用的地方。以下是我们正在构建和测试的场景。

场景 1:季度销售报表

以前: 你从 CRM 里导出三个 CSV。粘到 Excel 里。花 40 分钟做透视表、写 SUMIFS 公式、加条件格式、画图表。然后把图表复制到 Word 里,写一段分析,发邮件给领导。全程耗时:约 2 小时。

现在: 你跟 Agent 说:“拉 Q4 的销售数据,按区域和产品线拆分,标出环比下降超过 15% 的部分,出一份带图表的报告。”

底层发生了什么:

  • 一个 销售报表 Skill 被激活——它知道标准报表结构、哪些指标重要、怎么标异常。
  • Skill 编排 MCP 工具:一个连 CRM 数据库,一个写 Excel,一个生成 Word。
  • Gateway 管理整个会话——CRM 查询要 30 秒不会超时,Excel 写入失败会重试。
  • 你拿到一份排好版的 Excel 和一份 Word 摘要。耗时:约 3 分钟。

Agent 没有临场发挥。它照着菜谱做菜——这个菜谱里编码了你们公司季度报表的结构。

场景 2:会议纪要

以前: 你坐了 45 分钟会议,潦草记了几笔。结束后花 20 分钟整理——按话题分类、提取 action item、发给参会人。有一半的时候你漏了东西,还得回去听录音。

现在: 你说:“把昨天产品同步会的录音转成文字,按话题整理,提取 action item(标上负责人和截止日期),然后把摘要发给所有参会人。”

底层发生了什么:

  • 一个 会议纪要 Skill 被激活——它知道怎么区分决策、待办和背景讨论。
  • MCP 工具 负责转录(Whisper API)、查日历(谁参会了)、发邮件。
  • Skill 使用你们团队的格式——不是通用模板,是你们实际使用的纪要结构。

输出看起来像人写的,因为 Skill 是按你们团队写纪要的方式训练的。

场景 3:合同风险审查

以前: 法务发来 30 页供应商合同。你通读一遍。标出看着不太对的条款。和公司的标准条款交叉对比。写一份风险摘要。这事基本上要花半个下午。

现在: 你说:“用公司的标准条款审查这份供应商合同。标出偏差,按风险等级评分,给我一份能发给法务的摘要。”

底层发生了什么:

  • 一个 合同审查 Skill 被激活——它知道你们公司的标准条款、常见风险模式、法务偏好的风险评级方式。
  • MCP 工具 负责 PDF 解析、文本提取和结构化对比。
  • Gateway 执行访问控制——合同数据留在安全运行时里,绝不离开沙箱。

4 分钟出一份结构化的风险报告。法务仍然做最终审核——Agent 替代的不是律师的判断,是判断之前那 3 小时的阅读和标注。

场景 4:邮件分拣

以前: 周一早上,127 封未读邮件。你花 45 分钟扫标题、打开邮件、在脑子里分类(紧急/知悉/需回复/垃圾),然后起草回复。等你处理完,又来了三封紧急邮件。

现在: 你说:“整理一下我的收件箱。直属下属和客户的紧急邮件标出来。只需要回’收到’的帮我起草回复。其余的用三句话概括。”

底层发生了什么:

  • 一个 邮件分拣 Skill 被激活——它知道谁是你的直属下属、哪些客户是优先级、你语境里”紧急”是什么意思。
  • MCP 工具 连你的邮箱,拉消息,起草回复。
  • Gateway 确保没有邮件内容被存储到会话之外——任务结束,数据即焚。

6 分钟处理完 127 封邮件。你改了两封草稿,确认其他的,继续干别的事。


四、为什么能跑通(以及为什么还跑不通)

四个场景有一个共同模式,值得说明白。

跑通的原因:

  1. Skill 编码了领域知识。 不是一个通用 prompt——是一套结构化指令,知道你们公司的报表格式、团队的纪要风格、法务的风险评级标准。这就是为什么基于 Skill 的方案比裸 prompt 靠谱。
  2. MCP 工具解决连接问题。 Agent 不用自己”搞明白”怎么连 CRM 或者怎么解析 PDF。MCP 提供现成的、测试过的集成。Skill 指令”用这个工具”,MCP 处理协议层。
  3. Gateway 让一切不掉链子。 会话状态不会在任务中途消失。某一步失败了 Gateway 会重试或回滚。权限是隔离的——合同审查 Skill 碰不到你的邮件,邮件 Skill 碰不到合同。

还跑不通的地方:

  1. 跨应用、多步骤的工作流。 当任务跨越 4 个以上应用时,通过率会显著下降。上下文碎片化是目前最大的未解难题。
  2. 模糊的意图。 “把这个报告搞好一点”不够用。Agent 需要明确的意图——“标出下降超过 15% 的指标”是可执行的,“做好看一点”不是。Vibe Working 要求用户说清楚”做完”是什么样子。
  3. 首次配置。 Skill 需要先学会你们公司的规矩才能复现它们。第一次季度报表要花心思配置。第 20 次只要 3 分钟。

五、现有方案差在哪

微软的 Vibe Working 功能是很好的演示。但当前方案有结构性限制。

Copilot 锁在微软生态里。 Agent Mode 在 Excel 和 Word 里跑。但你的数据可能在 Google Sheets,CRM 是 Salesforce,会议录音在飞书或 Otter.ai。你需要的是跨生态编排,不是在一个围墙花园里闭环。

没有跨会话的记忆。 Copilot 不记得上个月的报告用了什么图表样式,也不知道法务偏好三级风险评分。每次会话从头开始。Skill 解决这个问题——知识在 Skill 文件里,不在会话里。

没有安全隔离。 Copilot 处理你的供应商合同时,数据去了哪里?走的 OpenAI 的 API?Anthropic 的?(微软两个都用。)事实上,微软文档明确指出:Microsoft 365 Copilot 中的 Anthropic 模型明确不属于欧盟数据边界(EU Data Boundary)的范畴。如果你是运行 Agent Mode 的欧洲企业,部分数据可能会在美国 AWS 上处理。涉及敏感文档的时候,你需要一个有明确数据边界的运行时——有沙箱的 Gateway,不是一个连着云端 API 的聊天窗口。

准确率还不是产品级的。 SpreadsheetBench 显示 Excel 任务准确率为 57.2%——而且这是微软自家的功能在基准测试上的表现。学术研究(如 SheetBrain, SheetAgent)表明,即使是专用的神经符号系统也需要显式的验证模块来防止数据损坏。光靠模型的原生智商,无论多强,还不足以支撑生产级的办公自动化。


六、我们的做法

AgentPuter 的 Vibe Working 能力栈有三层——和上一篇文章一样:

Skills 定义每个场景的剧本。销售报表 Skill、会议纪要 Skill 和合同审查 Skill 各不相同。每个都编码了特定的领域知识、步骤序列、工具要求和输出格式。

Agent Gateway 编排执行。它加载正确的 Skill,路由 MCP 工具调用,管理会话状态,执行权限,处理失败。Gateway 是系统在 12 步工作流的第 7 步不崩溃的原因。

MCP 工具 负责实际连接——数据库查询、文件读写、邮件 API、日历查找、PDF 解析。标准化、测试过、容器化。

和 Copilot 比,三个不同点:

  1. 生态中立。 我们的 Gateway 跨 Google Workspace、Microsoft 365、Salesforce、Slack、Notion——你的数据在哪,我们就去哪。不锁定任何一个生态。
  2. 持久化知识。 Skill 跨会话记住你的规矩。第 20 次季度报表和第 2 次一样快,因为 Skill 已经知道你的格式、指标和受众。
  3. 安全优先的运行时。 每个 Skill 在沙箱里执行。合同数据碰不到邮件 Skill 的上下文。会话数据默认临时存储,除非显式持久化。每一步都有审计日志。

写在最后

Vibe Working 是一个好名字。你说一句话,Agent 交付成品——这就是所有人在建的终局。

但实话实说:我们还没到那一步。Demo 和日常工具之间的鸿沟是真实的。办公工作流 ~50% 的通过率说明:光靠模型的智商不够。

弥合这个差距靠的不是更聪明的模型,是模型周围的基础设施:

  • Skills 用经过验证的流程约束 Agent,而不是让它自由发挥
  • Gateway 让多步骤任务不脱轨——有重试、有回滚、有访问控制
  • MCP 工具 提供测试过的、可靠的集成,而不是让 Agent 自己去摸索 API

四篇文章下来,我们从拆一个爆款开源项目开始,一步步拼出了 Agent 基础设施到底需要什么。

结论其实很简单:帮你做季度报表的那个 Agent,不比 ChatGPT 更聪明。它只是有更好的指令、更可靠的运行时、和正确接入的工具。 那项 NBER 研究里的 7,137 名员工不需要更聪明的模型。他们需要的是围绕现有模型构建的更好基础设施。

这就是 Vibe Working。不是氛围(Vibes)。是基础设施(Infrastructure)。


这是系列的第四篇。我们从 OpenClaw 讲到了 Skills 和 MCP,现在回到地面看能力栈实际交付了什么。接下来,我们将转向商业模式:如何通过 Agent 平台真正赚钱?如果你有一个想被自动化的办公流程——或者你试过但没搞定的——我们很想听听。