汎用エージェントのコーディング能力、適切なアダプタ設計が鍵を握るか?
Claw-SWE-Bench: オープンソースエージェントのコーディング能力評価ベンチマーク
査読前の可能性がある研究情報
Claw-SWE-Benchは、OpenClawのような汎用エージェントのコーディング能力を評価するための多言語ベンチマーク
速報・AI要約未精査
arXiv cs.CL
毎日更新・AIニュース考察
Claw-SWE-Bench: オープンソースエージェントのコーディング能力評価ベンチマーク
査読前の可能性がある研究情報
Claw-SWE-Benchは、OpenClawのような汎用エージェントのコーディング能力を評価するための多言語ベンチマーク
速報・AI要約未精査
査読前の可能性がある研究情報
エージェントハーネスの必要十分条件を定義し、ソフトウェアエンジニアリングにおける生成AIの活用を明確にする
速報・AI要約未精査
こんな人にソフトウェアエンジニア・AI研究者
arXiv cs.AISWE-benchで優れたパフォーマンスを示したClaude 3.5 Sonnetの評価結果が報告されました。
こんな人にソフトウェア開発者・人工知能研究者
Anthropic Engineering