OSWorld 2.0: 長期タスクにおけるAIエージェントの限界とは?
OSWorld2.0: 長期視点の現実世界タスクにおけるコンピュータ利用エージェントのベンチマーク
査読前の可能性がある研究情報
OSWorld 2.0は、現実世界の長期視点タスクにおけるコンピュータ利用エージェントの能力を評価する新たなベンチマークです。
arXiv cs.AI
毎日更新・AIニュース考察
OSWorld2.0: 長期視点の現実世界タスクにおけるコンピュータ利用エージェントのベンチマーク
査読前の可能性がある研究情報
OSWorld 2.0は、現実世界の長期視点タスクにおけるコンピュータ利用エージェントの能力を評価する新たなベンチマークです。