← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

GUIエージェント評価の新時代を切り開く ScaleWoB

ScaleWoBは、大規模言語モデルを活用したGUIエージェントの評価と訓練に必要な高精度なシミュレート環境生成フレームワークです。

元記事タイトル: スケールWoB: 大規模環境合成によるGUIエージェントの評価と訓練

arXiv cs.AI 2026年06月19日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

ScaleWoBは、複雑で制御不能な現実世界の問題に対処するためのフレームワークを提案。
低コストかつ迅速なセットアップが可能で、多様なプラットフォームに対応。
100以上の環境と1000以上の検証可能なタスクをカバー。

こんな人に関係ある話

AI研究者ソフトウェア開発者品質管理担当者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この論文では、大規模な言語モデルを活用したGUIエージェントの迅速な進歩に対応するため、リアルタイム環境での評価や訓練に必要な高精度なシミュレート環境生成フレームワーク ScaleWoB を提案しています。ScaleWoB は複雑で制御不能な現実世界の問題を解決し、バックエンドが不要なウェブページ形式で提供され、低コストかつ迅速なセットアップが可能です。また、モバイルやデスクトップなど多様なプラットフォームに対応しており、100以上の環境と1000以上の検証可能なタスクをカバーしています。

編集部コメント

この論文は、大規模言語モデルを活用したGUIエージェントの評価と訓練における新たなアプローチを提示しています。ScaleWoB の導入により、開発者は現実世界に近いシミュレート環境でエージェントの性能を向上させることができるでしょう。

評価ポイント Assessment

良い点

複数のGUIプラットフォームへの対応
低コストかつ迅速なセットアップが可能
現実世界の複雑さに対処できる

業界・社会への影響 Impact

このフレームワークは、GUIエージェントの評価と訓練において重要な役割を果たし、リアルタイム環境での性能向上に寄与する可能性があります。また、開発者はより現実的なシナリオでエージェントをテストでき、品質管理やユーザーエクスペリエンスの改善につながるでしょう。

深堀り Deep Dive

前提知識

大規模言語モデルによるGUIエージェントの急速な進歩に対応するため、リアルタイム環境での評価や訓練に必要な高精度シミュレートフレームワークが求められています。現実世界では環境が複雑で制御不能であり、検証可能な報酬を作成したり、状態を保存またはリセットするのが難しいという課題があります。

何が新しいのか

ScaleWoBは、バックエンド不要のウェブページ形式での提供と低コストかつ迅速なセットアップが可能で、複雑で制御不能な現実世界の問題を解決します。これにより、従来よりも広範囲にわたるリアルワールドタスクの評価や訓練が可能になります。

今後見るべき論点

大規模環境合成フレームワークによるGUIエージェントの性能向上の可能性
ScaleWoBのようなフレームワークが、今後のGUIエージェント開発に与える影響
モバイルアプリケーション分野における合成環境の導入状況とその効果

用語解説

高精度シミュレートフレームワークリアルタイム環境での評価や訓練を行うための、正確なシミュレーションを提供するシステム

バックエンド不要ウェブページとして直接アクセスできるため、サーバーや特別なソフトウェアのインストールが不要

検証可能なタスク明確な成功基準があり、結果を客観的に評価できるタスク

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

スケールWoB: 大規模環境合成によるGUIエージェントの評価と訓練

arXiv cs.AI

https://arxiv.org/abs/2605.25160

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

大規模言語モデル GUIエージェント環境合成検証可能なタスク

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.AI
公開日	2026-06-19

元記事の説明文

arXiv:2605.25160v2 Announce Type: replace Abstract: GUI agents powered by large language models are advancing rapidly, creating urgent needs for evaluation and training based on realistic environments. However, directly doing so in real-world environments introduces some challenges that cannot be overlooked. Real-world environments are complex and uncontrollable, making it difficult to construct verifiable rewards and to save or reset states. Existing works prioritize reproducibility but are often limited to open-source apps or file-operation tasks for reliable reward building, leaving a persistent gap from real-world usage. Furthermore, relying on virtual machines or docker images demand high resource requirements and suffer from slow response speeds, which limit the efficiency. We present \sys, a framework that could produce high-fidelity synthesized interactive environments for GUI agents across platforms with verifiable rewards. These environments behave as backend-free webpages accessible via URL, requiring near-zero setup and low resource cost, making the approach suitable for both large-scale evaluation and downstream agent training. We support multiple GUI platforms including mobile, desktop, and automotive/in-vehicle interfaces based on the same pipeline, covering 100+ environments and 1000+ verifiable tasks. Among them, 120 challenging tasks across 63 simulated mobile applications are released as a fully synthesized mobile GUI agent benchmark. Experiment results on five state-of-the-art mobile GUI agents reveal substantial headroom -- the average success rate is only 27.92\%, dropping to 17.82\% on long-horizon subset -- while humans reach 92.08\%. A comparison against real-world sample tasks shows that assessments made in our synthetic environments generalize to real apps. The project website is at https://scalewob.github.io.