← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

長期タスク向けLLMエージェント、LemonHarnessが解決する課題とは？

LemonHarnessは、大規模言語モデルエージェントの長期タスク対応を可能にするフレームワークです。

元記事タイトル: LemonHarness: 長期タスク向けLLMエージェントの実行フレームワーク

arXiv cs.AI 2026年06月24日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

LLMエージェントが長期タスクに対応するための一元化フレームワーク
ファイルシステム上の状態変更を明確に管理
時間経過とリソース量のフィードバックで効率性向上

こんな人に関係ある話

AI研究者ソフトウェア開発者データサイエンティスト

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この論文では、長期タスクに適用される大規模言語モデル(LLM)エージェントがファイルシステムで状態変更を行う際の課題を解決するためのフレームワークであるLemonHarnessについて説明しています。LemonHarnessは、エージェントの実行範囲を明確に定義し、モデル呼び出しやツール実行などの操作を一元化することで、状態変更が散在することを防ぎます。また、時間経過と残りのリソース量をモデルに提供することで、効率的なタスク実行を可能にします。

編集部コメント

この研究はLLMエージェントの長期タスク対応における重要な一歩を示しています。特に、ファイルシステム上の状態変更を管理するための一元化フレームワークは、将来的なAIアシスタントや自動化ツールの開発に大きな影響を与える可能性があります。

評価ポイント Assessment

良い点

LLMエージェントの長期タスク対応を強化
ファイルシステム上の状態変更を一元管理
時間経過とリソース量をモデルにフィードバック

業界・社会への影響 Impact

LemonHarnessは、大規模言語モデルが長期タスクに対応する際の課題解決に貢献し、エージェントの効率と信頼性を向上させる可能性があります。これにより、自動化やAIアシスタントの領域で新たな進歩が期待されます。

深堀り Deep Dive

前提知識

大規模言語モデル(LLM)は文書生成や応答作成などのタスクに広く使用されており、特に長期的なタスクでは複数回の反復を通じてワークスペースの状態を変更することがあります。これらの状態変更がファイルシステム上で散在してしまうと、追跡や管理が難しくなります。そのため、明確な実行範囲内でエージェントの動作を一元化するフレームワークが必要となります。

何が新しいのか

LemonHarnessは、長期間のタスク向けに設計されたLLMエージェントのための一元化フレームワークで、モデル呼び出しやツール実行などの操作が明確なワークスペース内で行われるようにします。これにより、ファイルシステム上の状態変更が散在することを防ぎます。また、時間経過とリソース量をモデルに提供することで、タスクの効率的な実行を可能にします。

今後見るべき論点

LemonHarnessが他の長期間タスク向けフレームワークとの比較でどの程度優れているか
時間経過やリソース量へのモデルの反応精度と効果性
LemonHarnessを使用したエージェントのパフォーマンス向上の度合い

用語解説

大規模言語モデル大量のデータで学習された、文書生成や応答作成などのタスクに適した高度な人工知能

ワークスペースプログラムが実行される際に必要なファイルやディレクトリの集合体

状態変更プロセスやシステムの動作中に生じる内部状況の変化

フレームワークソフトウェア開発に使用される構造化された設計パターン

時間経過タスク実行中に経過する時間を考慮に入れた戦略

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

LemonHarness: 長期タスク向けLLMエージェントの実行フレームワーク

arXiv cs.AI

https://arxiv.org/abs/2606.24311

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

LemonHarness LLMエージェント長期タスクファイルシステム

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.AI
公開日	2026-06-24

元記事の説明文

arXiv:2606.24311v1 Announce Type: new Abstract: As large language model (LLM) agents are applied to longer tasks, they increasingly modify workspace state across multiple rounds of iteration. However, agents typically observe only tool outputs and log fragments, while the actual state changes occur in the file system. Without explicit workspace boundaries, state-changing operations such as file writes and temporary artifact generation may scatter changes across paths. Over time, these weakly constrained changes accumulate, making states such as modified files difficult to track. This paper presents LemonHarness, an integrated execution framework for long-horizon agents. LemonHarness establishes an explicit execution boundary by constraining state-changing operations within a clearly defined workspace and bringing model invocation, tool execution, and rule knowledge within a single controlled boundary. State-changing operations, including file writes, dependency installation, and temporary artifact creation, are executed through structured tool interfaces, with execution feedback recorded as observations available to subsequent model decisions. The system also introduces a reusable rule knowledge base, which turns recurring execution rules and acceptance criteria into runtime knowledge. LemonHarness further adds a time-aware execution mechanism that exposes elapsed and remaining budget to the model, so it can rebalance exploration, implementation, and validation effort as time pressure shifts and avoid timeouts from long waits or excessive verification. On Terminal-Bench 2.0, LemonHarness_GPT-5.3-CodeX reached 84.49% accuracy over 445 trials; pairing the same framework with the stronger GPT-5.5 backbone raised the average accuracy to 86.52% across five jobs. The results suggest that a unified runtime boundary, callable rule knowledge, and time-aware execution can improve the stability of long-horizon agent execution.