汎用エージェントのコーディング能力、適切なアダプタ設計が鍵を握るか?
Claw-SWE-Bench: オープンソースエージェントのコーディング能力評価ベンチマーク
査読前の可能性がある研究情報
Claw-SWE-Benchは、OpenClawのような汎用エージェントのコーディング能力を評価するための多言語ベンチマーク
速報・AI要約未精査
arXiv cs.CL
毎日更新・AIニュース考察
Claw-SWE-Bench: オープンソースエージェントのコーディング能力評価ベンチマーク
査読前の可能性がある研究情報
Claw-SWE-Benchは、OpenClawのような汎用エージェントのコーディング能力を評価するための多言語ベンチマーク
速報・AI要約未精査