← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

混合インターフェースCUA評価、WeaveBenchが示す新たな挑戦とは？

WeaveBenchは、複数インターフェースを統合したコンピュータ利用エージェントの評価に特化したベンチマークです。

元記事タイトル: WeaveBench: 混合インターフェースを持つコンピュータ利用エージェントの長期展望ベンチマーク

arXiv cs.AI 2026年06月11日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

WeaveBenchは、視覚デスクトップ制御とコマンドライン操作を組み合わせたCUAの評価を行う
114のタスクが8つの実世界作業ドメインで構成されている
最良のモデル-ランタイムペアでも41.2%しかパス率が達成できていない

こんな人に関係ある話

AI研究者ソフトウェアエンジニアコンピュータ科学者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

WeaveBenchは、視覚デスクトップ制御、コマンドライン実行、コード編集、ブラウザ、外部ツールを組み合わせたランタイムで動作するコンピュータ利用エージェント(CUA)の評価に特化したベンチマークです。114のタスクが8つの実世界の作業ドメインにわたって設けられ、各タスクはGUIとCLI/コード操作を組み合わせたものとなっています。このベンチマークでは、最良のモデル-ランタイムペアでも41.2%しかパス率が達成できず、CUA評価における重要なギャップを明らかにしています。

編集部コメント

WeaveBenchは、複数インターフェースを持つコンピュータ利用エージェントの評価において重要な進展を遂げています。しかし、依然として高い課題が存在し、今後の研究開発に向けた新たな挑戦を提示しています。

評価ポイント Assessment

良い点

WeaveBenchは複数インターフェースを統合した長時間タスクに対応する
実世界の作業ドメインに基づいた114のタスクで構成されている
結果だけでなく、プロセスも評価することでエージェントの性能を正確に測定

懸念点

最良のモデル-ランタイムペアでも低いパス率を示す
長時間のタスクと複数インターフェースの統合は依然として課題が多い

業界・社会への影響 Impact

WeaveBenchは、CUAがGUI、CLI、コード操作を組み合わせた長期的な実世界タスクでどのように機能するかを評価するための重要なツールを提供します。これにより、エージェントの限界と改善点を明確にし、将来的な開発指針を示唆します。

深堀り Deep Dive

前提知識

コンピュータ利用エージェント(CUA)は、人間が行う複雑なタスクを自動化または補助する人工知能の一種です。CUAは通常、視覚インターフェース（GUI）やコマンドラインインターフェース（CLI）、コードエディターなどの異なる操作環境で動作します。これらの多様なインターフェースと互換性を持つ能力がCUAの評価において重要な要素となっています。

何が新しいのか

WeaveBenchは、視覚デスクトップ制御、コマンドライン実行、コード編集など複数の操作環境を組み合わせたベンチマークで、従来のGUIやCLI単独での評価とは異なるアプローチを取ります。これはCUAが多様な作業環境で効果的に機能する能力を測定することを目指しています。

今後見るべき論点

CUAが複数の操作環境にどのように対応するか
WeaveBenchが開発者のモデル改良と実用化にどの程度貢献できるか
異なる業界や分野でのWeaveBenchの適用範囲

用語解説

コンピュータ利用エージェント(CUA) 人間が行う複雑なタスクを自動化または補助する人工知能の一種

視覚デスクトップ制御ユーザーインターフェースを通じてソフトウェアやアプリケーションの操作を行うこと

コマンドライン実行テキストベースの環境でコンピュータシステムに指示を入力すること

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

WeaveBench: 混合インターフェースを持つコンピュータ利用エージェントの長期展望ベンチマーク

arXiv cs.AI

https://arxiv.org/abs/2606.09426

Home https://ccc.edu.ph/ used in analysis

Climate Change Commission https://climate.gov.ph/ used in analysis

Resources https://climate.gov.ph/knowledge

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

WeaveBench CUA Hybrid Interface Long-Horizon Tasks

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.AI
公開日	2026-06-11

元記事の説明文

arXiv:2606.09426v2 Announce Type: replace Abstract: Computer-use agents (CUAs) increasingly operate in runtimes that combine visual desktop control, command-line execution, code editing, browsers, and external tools. Existing benchmarks, however, often evaluate these interfaces as separable capabilities, leaving long-horizon cross-interface orchestration under-tested. Thus, we introduce WeaveBench, a long-horizon hybrid-interface benchmark with 114 tasks across 8 real-world work domains, grounded in real user requests and publicly verifiable artifacts. Each task requires agents to combine GUI observations/actions with CLI/code operations within a single trajectory. We evaluate these tasks on a real Ubuntu desktop inside deployed CLI-agent runtimes, augmented with a minimal desktop-control plugin. We also propose a companion trajectory-aware judge that inspects deliverables, files, screenshots, logs, and action traces, while detecting shortcut behaviors such as fabricated visual evidence or hard-coded metrics. Across frontier model-runtime pairings, the best PassRate reaches only 41.2%, showing the benchmark remains far from saturated. The trajectory-aware judge further reveals that outcome-only grading substantially overestimates agent performance. Overall, WeaveBench exposes a critical gap in CUA evaluation and provides an effective testbed to measure whether agents can orchestrate GUI, CLI, and code operations across long-horizon real-world tasks.