← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

汎用エージェントのコーディング能力、適切なアダプタ設計が鍵を握るか？

Claw-SWE-Benchは、OpenClawのような汎用エージェントのコーディング能力を評価するための多言語ベンチマーク

元記事タイトル: Claw-SWE-Bench: オープンソースエージェントのコーディング能力評価ベンチマーク

arXiv cs.CL 2026年06月11日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

Claw-SWE-Benchは、OpenClawなどの汎用エージェントがSWE-benchで測定可能なコーディング能力を持つためには適切なアダプターが必要であることを示す
データセットは8言語43リポジトリのGitHubイシュー解決インスタンスを含む
適切なアダプタ設計がパフォーマンスに大きな影響を与えることが明らかになった

こんな人に関係ある話

AI研究者ソフトウェアエンジニアエージェント開発者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、OpenClawのような汎用エージェントがSWE-benchで測定可能なコーディング能力を有するためには適切なアダプターが必要であることが示されています。Claw-SWE-Benchは、多言語のGitHubイシュー解決タスクに対して350件のデータセットと評価プロトコルを提供し、エージェントハーネスのパフォーマンスを公平に比較します。OpenClawが最小アダプターを使用した場合と完全なアダプターを使用した場合で大きな性能差があり、適切なアダプタ設計はコーディングタスクでのエージェントの有効性を大きく左右することが明らかになりました。

編集部コメント

この研究では、汎用エージェントのコーディング能力評価に向けた新たなベンチマークClaw-SWE-Benchが提案されています。適切なアダプタ設計の重要性が示され、今後のエージェント開発においては、より実践的なコーディング環境でのパフォーマンス向上を目指すことが求められます。

評価ポイント Assessment

良い点

Claw-SWE-Benchは多言語対応のベンチマークを提供し、エージェントハーネスのパフォーマンス評価を可能にする
適切なアダプタ設計がコーディング能力に大きな影響を与えることが示されている
データセットはSWE-bench-MultilingualとSWE-bench-Verified-Miniから生成された8言語、43リポジトリのGitHubイシュー解決インスタンスを含む

懸念点

最小アダプターを使用した場合のパフォーマンスが低いことから、適切なアダプタ設計が必須であることが示されている
評価プロトコルは固定されたプロンプトやランタイム予算などの制約を含むため、実際のコーディング環境での性能と異なる可能性がある

業界・社会への影響 Impact

この研究は、汎用エージェントがより複雑なタスク（特にコーディング）に対応するためには適切なアダプター設計が必要であることを示し、開発者や研究者がエージェントのパフォーマンスを評価・改善する際の指針となる可能性があります。また、Claw-SWE-Benchは業界標準として採用されれば、エージェント間での公平な比較が可能になり、技術進歩を促進することが期待されます。

深堀り Deep Dive

前提知識

汎用エージェントの開発が進む中、これらのエージェントがコーディングタスクを効果的に実行するためには適切なアダプターが必要であることが認識されています。OpenClawのような汎用エージェントは、SWE-benchで測定可能なコーディング能力を持つために、クリーンなDockerワークスペースやパッチの要件を満たす必要があります。

何が新しいのか

この研究では、Claw-SWE-Benchが多言語のGitHubイシュー解決タスク用に設計され、エージェントハーネス間で公平な性能比較が可能となるように350件以上のデータセットと評価プロトコルを提供しています。特にOpenClawのような汎用エージェントにおいて、適切なアダプターのデザインが重要な役割を果たすことが明らかになっています。

今後見るべき論点

アダプター設計の最適化に向けた研究開発
多言語対応のさらなる拡張と改善
コスト効率性の向上とAPI利用コストの最適化

用語解説

アダプター汎用エージェントが特定タスクに特化するために必要なインターフェースや機能を提供するソフトウェア

SWE-bench ソフトウェアエンジニアリングタスク評価のためのベンチマークプラットフォーム

OpenClaw 汎用エージェントハーネスを提供するオープンソースプロジェクト

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

Claw-SWE-Bench: オープンソースエージェントのコーディング能力評価ベンチマーク

arXiv cs.CL

https://arxiv.org/abs/2606.12344

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks | Takara TLDR https://tldr.takara.ai/p/2606.12344 used in analysis

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks https://arxiv.org/html/2606.12344 used in analysis

[2606.12344] Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks https://arxiv.org/abs/2606.12344

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

Claw-SWE-Bench OpenClaw SWE-bench アダプタ設計 GitHubイシュー解決

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.CL
公開日	2026-06-11

元記事の説明文

arXiv:2606.12344v1 Announce Type: cross Abstract: General-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker workspace, patch, and prediction contract required for scoring. We introduce Claw-SWE-Bench, a multilingual SWE-bench-style benchmark and adapter protocol that makes heterogeneous agent harnesses, or claws, comparable under fair settings including a fixed prompt, runtime budget, workspace contract, patch extraction procedure, and evaluator. The full benchmark contains 350 GitHub issue-resolution instances across 8 languages and 43 repositories, drawn from SWE-bench-Multilingual and SWE-bench-Verified-Mini after future-commit cleanup. We also release Claw-SWE-Bench Lite for faster validation, which is an 80-instance subset selected by a cost-aware, rank-aware procedure over 17 calibration columns. On the full benchmark, OpenClaw with a minimal direct-diff adapter scores only $19.1\%$ Pass@1, whereas the full adapter reaches $73.4\%$ with the same GLM 5.1 backbone, showing that adapter design is essential for enabling OpenClaw-style harnesses to perform coding tasks effectively. Across an OpenClaw $\times$ nine-model sweep and a five-claw $\times$ two-model sweep, model choice changes Pass@1 by $29.4$ pp and harness choice by $27.4$ pp under fixed models; systems with similar accuracy can differ substantially in total API cost. Claw-SWE-Bench therefore treats harness and cost accounting as first-class axes of SWE-style coding-agent evaluation, providing both a full benchmark and a low-cost reference set for reproducible comparison. The data is available at https://github.com/opensquilla/claw-swe-bench and https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.