Vibe Working：「エージェントに任せる」が本当に機能するとき

これまでの3つの記事で、私たちは一本の筋をたどってきました。製品としてのOpenClawから始まり → そのBrain-Body-Soulアーキテクチャ → そしてその根底にあるSkills + Gateway + MCPの機能スタックへと。

私たちは「スキルが日々の業務を変革する」と繰り返し述べてきました。それが実際にどのようなものか、いよいよお見せする時が来ました。

I. Microsoftが「Vibe Working」と名付けたもの

2025年9月29日、MicrosoftはMicrosoft 365 Copilotに2つの機能を実装し、それにVibe Workingという名前を付けました。

ExcelとWordにAgent Modeが搭載されました。プロンプトを入力すると — 「月々の返済内訳付きのローン返済計算ツールを作って」 — エージェントは単に数式を返すだけではありません。シートを作成し、数式を書き、グラフを生成し、結果を検証し、エラーを見つけて修正し、アウトプットが正しくなるまで反復します。複数ステップで、自己修正型です。

CopilotのチャットサイドバーにはOffice Agentが搭載されました。*「この四半期データから役員会向けのプレゼンテーションを作って」*と指示すると、洗練されたPowerPointが生成されます。プレースホルダーテキストが入ったテンプレートではなく、あなたのデータがフォーマットされ、すぐに発表できる状態の、本物のスライドデッキです。

この名前はAndrej Karpathyに遡ります。2025年2月2日、OpenAIの創設メンバーである彼はこうツイートしました：「『vibe coding』と私が呼ぶ新しい種類のコーディングがある。そこでは完全にvibe（雰囲気）に身を任せ、指数関数的なものを享受し、コードの存在すら忘れてしまう。」その7ヶ月後、Microsoftはそのアイデアをコードからスプレッドシート、ドキュメント、スライドに応用しました。あなたが意図を伝えれば、エージェントが成果物を届けるのです。

もうVLOOKUPの構文と格闘する必要はありません。47枚のスライドを手作業でフォーマットする必要もありません。3つのスプレッドシートとWord文書の間で数字をコピー＆ペーストする必要もありません。

少なくとも、それが約束されていることです。Microsoft自身のSpreadsheetBenchによると、ExcelのAgent Modeは複雑なタスクで57.2%の精度を達成しています。一部のユーザーにとっては手作業より優れていますが、信頼できるレベルには程遠いのが現状です。

II. 理想と現実

では、実際の調査結果はどうなっているのでしょうか。

SpreadsheetBenchのようなオフィスオートメーションのベンチマークでは、データセットのフィルタリング、テーブルの相互参照、要約分析の作成といった、現実的なワークフローでトップモデルがテストされました。これらは、有能なオフィスワーカーが日常的に何気なくこなしているタスクです。

最高のシステムでさえ、半分近くは失敗します。 研究者たちの結論は率直です：パフォーマンスは依然として「現実世界のオフィスワークフローで要求される人間の精度基準をはるかに下回っている」と。

失敗のパターンは示唆に富んでいます：

操作の冗長性 — エージェントが同じアクションを3回連続で繰り返し、トークンを浪費し、時には自身の出力を破損させます。
幻覚による参照 — 10行しかないスプレッドシートのセルB14を自信満々に編集します。
アプリ切り替えの失敗 — ExcelからWord、そしてEmailへとデータを移動させると、多くの場合コンテキストが失われます。
長期的なタスクにおける目的の逸脱 — 10ステップ以上のタスクでは、エージェントは徐々に何を達成しようとしていたかを忘れてしまいます。

しかし、これらの失敗についてほとんどの人が見逃している点があります。Microsoft自身のAI Red Teamがエージェントシステムの失敗モードの分類を発表しましたが、最も恐ろしい発見は幻覚ではありませんでした。それは人間の監視能力の低下です。

エージェントが正しく見えるスプレッドシートを生成すると、ユーザーは数式のチェックをやめてしまいます。エージェントがもっともらしく聞こえるメールを作成すると、ユーザーは読まずに送信ボタンを押してしまいます。真のリスクは、エージェントが間違えることではありません。人間がそれに気づかなくなることです。

これこそがVibe Workingの中心的な課題です。エージェントの能力が高まれば高まるほど、ガードレールなしにそれを信頼することは危険になるのです。

III. 4つのシナリオ：導入前と導入後

私たち自身の取り組みに踏み込む前に、現場で既に測定されていることについて、いくつか背景を説明します。

American Economic Review: Insightsに条件付きで受理されたNBERのフィールド調査では、66社にわたる7,137人のナレッジワーカーを6ヶ月間追跡しました。統合AIツールを使用したワーカーは、メールに費やす時間が25〜31%減少し、これは週におよそ2〜3時間の削減に相当します。

Morgan Stanleyのファイナンシャルアナリストは、リサーチとレポート作成にかかる時間を1日あたり1.5時間節約しました。
RepsolはCopilotのパイロット運用を実施し、従業員が平均で週に121分を節約し、アウトプットの質が16.2%向上したことを発見しました。
World Wide Technologyは941人のユーザーにCopilotを展開し、週に446時間の節約を測定しました。そのほとんどは会議の要約、メールの下書き、レポート作成によるものです。

これらの数字は本物です。しかし、NBERの調査に隠された発見も同様に重要です。メールの時間を節約したにもかかわらず、ワーカーの全体的なタスクの量や構成に有意な変化は見られなかったのです。ワーカーは個人でコントロールできることはスピードアップできましたが、他者との協調が必要なワークフローは変えられませんでした。AIは「細胞」を高速化しましたが、「生命体」そのものを再配線するには至らなかったのです。

これが重要な洞察です。現在のツールは、1つのアプリケーション内での個別のタスクの時間を節約します。難しい部分、つまり精度が約50%にまで低下する部分は、エージェントが複数のアプリにまたがってタスクを連鎖させ、完全な成果物を提出する必要がある場合です。

そこで登場するのが、スキルベースのオーケストレーションです。以下は、私たちが構築し、テストしてきたものです。

シナリオ1：四半期売上レポート

導入前： CRMからエクスポートした3つのCSVファイルを開きます。それらをExcelに貼り付けます。40分かけてピボットテーブルを作成し、SUMIFS関数を書き、条件付き書式を設定し、グラフを作成します。その後、グラフをWord文書にコピーし、その周りにコメントを書き、上司にメールで送ります。合計：約2時間。

導入後： エージェントにこう伝えます：「第4四半期の売上データを取得し、地域と製品ライン別に分類して。前四半期比で15%以上減少したものをフラグ付けし、グラフ付きのレポートを作成して。」

その裏側では：

Sales Reporting Skillが起動します。このスキルは、標準的なレポート構造、重要な指標、異常値をフラグ付けする方法を知っています。
スキルがMCPツールをオーケストレーションします。1つはCRMデータベースに接続し、もう1つはExcelに書き込み、さらに別のツールがWord文書を生成します。
Gatewayがセッションを管理します。CRMのクエリに30秒かかってもタイムアウトせず、Excelへの書き込みが失敗すればリトライします。
フォーマットされたExcelワークブックとWordの要約が返ってきます。合計：あなたの時間は約3分。

エージェントは即興で動いたわけではありません。あなたの会社が四半期レポートをどのように構成するかをエンコードした、レシピに従ったのです。

シナリオ2：議事録

導入前： 45分間の会議に出席します。メモを走り書きします。その後、20分かけてそれをタイピングし、トピック別に整理し、アクションアイテムを特定し、出席者に送ります。半分は何かを見逃していて、録画を確認する羽目になります。

導入後： こう伝えます：「昨日の製品同期ミーティングを文字起こしして、トピック別に整理し、担当者と期日付きのアクションアイテムを抽出して、出席者全員に要約を送って。」

その裏側では：

Meeting Notes Skillが起動します。このスキルは、決定事項、アクションアイテム、背景となる議論の違いを理解しています。
MCPツールが文字起こし（Whisper API）、カレンダーの参照（誰が出席したか）、メールの送信を処理します。
スキルは、一般的なテンプレートではなく、あなたのチームが実際に使用しているフォーマットを適用します。

アウトプットは人間が書いたかのようなドキュメントになります。なぜなら、スキルがあなたのチームの議事録の書き方を学習しているからです。

シナリオ3：契約書のリスクレビュー

導入前： 法務部から30ページのベンダー契約書が送られてきます。それを読みます。通常と異なる条項をハイライトします。自社の標準契約条件と照合します。リスクの要約を書き上げます。これだけで午後のほとんどを費やしてしまいます。

導入後： こう伝えます：「このベンダー契約書を当社の標準契約条件と照合してレビューして。逸脱箇所をフラグ付けし、それぞれをリスクレベルで評価し、法務部に送れる要約を作成して。」

その裏側では：

Contract Review Skillが起動します。このスキルは、あなたの会社の標準契約条件、一般的なリスクパターン、法務部が好むリスク評価方法を知っています。
MCPツールがPDFの解析、テキスト抽出、構造化された比較を処理します。
Gatewayがアクセス制御を強制します。契約データはセキュアなランタイム内に留まり、サンドボックスから出ることはありません。

4分で構造化されたリスクレポートが得られます。最終的なレビューは依然として法務部が行います。エージェントは弁護士を代替するのではなく、実際の法的判断に先立つ3時間の読み込みとハイライト作業を代替するのです。

シナリオ4：メールのトリアージ

導入前： 月曜の朝。127件の未読メール。45分かけて件名をスキャンし、メッセージを開き、頭の中で分類し（緊急／FYI／返信要／スパム）、返信を作成します。作業が終わる頃には、また新たに3件の緊急メールが届いている、といった具合です。

導入後： こう伝えます：「受信トレイをトリアージして。直属の部下やクライアントからの緊急案件はフラグ付けして。単なる確認で済むものには返信を下書きして。残りは3つの箇条書きで要約して。」

その裏側では：

Email Triage Skillが起動します。このスキルは、あなたの直属の部下が誰か、どのクライアントが優先か、あなたの文脈で「緊急」が何を意味するかを知っています。
MCPツールがメールプロバイダーに接続し、メッセージを取得し、返信を下書きします。
Gatewayは、セッションを超えてメールの内容が保存されないことを保証します。タスクが完了すると、データは消去されます。

127件のメールを6分でレビューできます。下書きされた返信を2つ編集し、残りを承認して、次の仕事に移ります。

IV. これが機能する理由（と、まだ機能しないこと）

4つのシナリオはすべて共通のパターンを持っています。それを明確にしてみましょう。

機能する理由：

ドメイン知識をエンコードしたスキル。 一般的なプロンプトではなく、あなたの会社のレポート形式、チームの議事録スタイル、法務部のリスク評価スケールを知っている構造化された指示セットです。これが、スキルベースのアプローチが生のプロンプティングを上回る理由です。
メカニクスを処理するMCPツール。 エージェントはCRMへの接続方法やPDFの解析方法を「考え出す」必要がありません。MCPは事前に構築され、テスト済みのインテグレーションを提供します。スキルは単に「このツールを使え」と指示し、MCPがプロトコルを処理します。
すべてを稼働させ続けるGateway。 セッションの状態はタスクの途中で消えません。ステップが失敗すれば、Gatewayはリトライまたはロールバックします。権限が強制されます。契約書レビューのスキルはあなたのメールにアクセスできず、メールのスキルは契約書にアクセスできません。

まだ機能しないこと：

多くのステップを伴うクロスアプリのワークフロー。 タスクが4つ以上のアプリケーションにまたがると、成功率は著しく低下します。コンテキストの断片化が最大の未解決問題です。
曖昧な意図。 「このレポートを良くして」では不十分です。エージェントには具体的な意図が必要です。「15%以上の減少をフラグ付けして」は実行可能ですが、「見栄えを良くして」はそうではありません。Vibe Workingでは、ユーザーが「完了」がどのような状態かを明確にする必要があります。
初回セットアップ。 スキルは、あなたの会社の慣習を再現する前に、それを学習する必要があります。最初の四半期レポートは設定に手間がかかります。20回目は3分で終わります。

V. なぜ現在のソリューションでは不十分なのか

MicrosoftのVibe Working機能は印象的なデモです。しかし、現在のアプローチには構造的な限界があります。

CopilotはMicrosoftのエコシステムにロックインされています。 Agent ModeはExcelとWordで機能します。しかし、あなたのデータがGoogle Sheetsにあり、CRMがSalesforceで、会議の録画がOtter.aiにあったらどうでしょう？ 1つのベンダー内に留まるのではなく、複数のベンダーを横断してオーケストレーションするものが必要です。

セッションをまたいだ永続的な記憶がない。 Copilotは、先月のレポートが特定のグラフスタイルを使用していたことや、あなたの法務部が3段階のリスクスケールを好むことを覚えていません。すべてのセッションはゼロから始まります。スキルはこれを解決します。知識はセッションではなく、スキルファイルにあります。

セキュリティの分離がない。 Copilotがあなたのベンダー契約書を処理するとき、そのデータはどこへ行くのでしょうか？ OpenAIのAPIを経由しますか？ Anthropicの？ Microsoftは両方を使用しています。そして、彼ら自身のドキュメントに埋もれている詳細があります：Microsoft 365 Copilotエクスペリエンス内のAnthropicモデルは、EUデータバウンダリの対象外として明示されています。もしあなたがヨーロッパの企業でAgent Modeを実行している場合、データの一部はEUのデータセンター外（具体的にはAWS US）で処理される可能性があります。機密文書には、明確なデータ境界を持つランタイムが必要です。つまり、クラウドAPIを備えたチャットウィンドウではなく、サンドボックス機能を持つGatewayです。

精度に関する数字は厳しいものです。 SpreadsheetBenchでのExcelのみのタスクで57.2% — しかもこれはMicrosoft自身のAgent Modeを自身のベンチマークでテストした結果です。スプレッドシートの推論に関する学術研究（SheetBrain、SheetAgentなど）は、専用に構築されたニューロシンボリックシステムでさえ、データの破損を避けるために明示的な検証モジュールが必要であることを示しています。生のモデルの知能は、どれほど印象的であっても、インフラなしではオフィスオートメーションの本番環境で使えるレベルにはありません。

VI. 私たちが取っているアプローチ

AgentPuterのVibe Workingスタックには3つのレイヤーがあります。これは前回の記事で説明したものと同じです：

Skillsは、各シナリオのプレイブックを定義します。Sales Reporting SkillはMeeting Notes Skillとは異なり、Contract Review Skillとも異なります。それぞれが特定のドメイン知識、ステップシーケンス、ツール要件、アウトプット形式をエンコードしています。

Agent Gatewayが実行をオーケストレーションします。適切なスキルをロードし、MCPツールの呼び出しをルーティングし、セッション状態を管理し、権限を強制し、障害を処理します。Gatewayこそが、12ステップのワークフローの7ステップ目でシステムが崩壊しない理由です。

MCPツールが実際の接続を処理します — データベースクエリ、ファイルI/O、メールAPI、カレンダー参照、PDF解析など。標準化され、テスト済みで、コンテナ化されています。

これがCopilotと何が違うのか？ 3つの点です：

ベンダーニュートラル。 私たちのGatewayは、Google Workspace、Microsoft 365、Salesforce、Slack、Notionなど、あなたのデータが実際に存在する場所を横断してオーケストレーションします。1つのエコシステムにロックインされません。
永続的な知識。 スキルはセッションをまたいであなたの慣習を記憶します。20回目の四半期レポートも2回目と同じ速さです。なぜなら、スキルがすでにあなたのフォーマット、指標、対象者を知っているからです。
セキュリティ第一のランタイム。 すべてのスキルはサンドボックス化された環境で実行されます。契約データはメールスキルのコンテキストに触れることはありません。セッションデータは明示的に永続化されない限り一時的なものです。すべてのステップに監査ログが残ります。

終わりに

「Vibe Working」は、これから来るものに対する良い名前です。欲しいものを説明すれば、エージェントが完成品を届けてくれるというアイデア。それこそが、誰もが目指している最終形です。

しかし、正直なところ、私たちはまだそこに到達していません。デモと日常的に使えるツールとの間には、現実的なギャップがあります。オフィスワークフローでの成功率が約50%という数字は、生のモデルの知能だけでは不十分であることを物語っています。

そのギャップを埋めるのは、より優れたモデルではありません。モデルを取り巻くインフラです：

エージェントに即興で動かせるのではなく、実績のあるワークフローに制約するSkills
リトライ、ロールバック、アクセス制御を備え、複数ステップのタスクを軌道に乗せ続けるGateway
エージェントにAPIを解明させるのではなく、テスト済みの信頼できるインテグレーションを提供するMCPツール

過去4回の記事で、私たちは1つのバイラルなオープンソースプロジェクトの分析から、エージェントインフラが実際に何を必要とするかの全体像を構築するまでを見てきました。

この分野で開発している誰もが気にかけるべき点があります。Morgan StanleyのアナリストはAIで1日1.5時間節約していますが、最高の汎用エージェントでさえ、複数アプリにまたがるオフィス業務の半分に失敗します。ROIはすでに現実のものです――単一アプリ内で、人間の監督下において。人間を排除したり、アプリの境界を越えたりした瞬間に、物事は破綻します。

結論はシンプルです。あなたの四半期レポートを作成するエージェントは、ChatGPTより賢いわけではありません。ただ、より良い指示、信頼できるランタイム、そして適切なツールが接続されているだけです。 NBERの調査に参加した7,137人のワーカーは、より賢いモデルを必要としていたのではありません。彼らがすでに持っていたモデルの周りに、より良いインフラが必要だったのです。

それがVibe Workingです。Vibe（雰囲気）ではなく、インフラストラクチャーです。

これは、エージェントインフラに関するシリーズの第4回目の投稿です。私たちはOpenClawから始まり → アーキテクチャ → Skills + Gateway + MCPの機能スタック → そして今回、それが実際にどのように機能するかを見てきました。次回はビジネスモデルに焦点を当てます。エージェントプラットフォームを実際にどう収益化するのか？もしAIで自動化しようとして失敗したオフィスワークフローがあれば、ぜひお聞かせください。