AI記事考察ノート - Signal Field Notes

絞り込み結果

条件に一致した記事を、新しい順にまとめています。 3

Preprint · 速報 · AI要約未精査 · 深堀り済 2026.06.11

Claw-SWE-Bench: オープンソースエージェントのコーディング能力評価ベンチマーク

査読前の可能性がある研究情報

Claw-SWE-Benchは、OpenClawのような汎用エージェントのコーディング能力を評価するための多言語ベンチマーク

速報・AI要約未精査

Claw-SWE-Bench OpenClaw SWE-bench アダプタ設計

arXiv cs.CL

Field Note 読みどころ

Claw-SWE-Benchは、OpenClawなどの汎用エージェントがSWE-benchで測定可能なコーディング能力を持つためには適切なアダプターが必要であることを示す
データセットは8言語43リポジトリのGitHubイシュー解決インスタンスを含む

プレプリント論文（査読前の可能性あり）

AI研究者ソフトウェアエンジニアエージェント開発者

Preprint 速報 AI要約未精査深堀り済 06.10

査読前の可能性がある研究情報

エージェントハーネスの必要十分条件を定義し、ソフトウェアエンジニアリングにおける生成AIの活用を明確にする

速報・AI要約未精査

こんな人にソフトウェアエンジニア・AI研究者

arXiv cs.AI

Official 速報 01.06

SWE-benchで優れたパフォーマンスを示したClaude 3.5 Sonnetの評価結果が報告されました。

こんな人にソフトウェア開発者・人工知能研究者

Anthropic Engineering