長文タスク評価を革新するOpenRewardとは？

OpenRewardは、知識豊富な長文タスク向けに強化学習を用いた新しい報酬モデルを開発

元記事タイトル: OpenReward: 長文タスク向け強化学習による報酬モデルの学習

arXiv cs.CL 2026年07月02日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

従来の報酬モデルが知識豊富な長文タスクで課題を持つ
外部ツールを使用して証拠を集めるOpenRMを開発
グループ相対ポリシーオプティマイゼーション（GRPO）で訓練

こんな人に関係ある話

機械学習エンジニア自然言語処理研究者大規模言語モデルの開発者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、知識豊富で長文のタスクに対して従来の報酬モデルが課題を抱えていることを指摘し、その解決策としてOpenRMという新たなツールを導入しました。OpenRMは、外部ツールを使用して関連する証拠を集める機能を持ち、グループ相対ポリシーオプティマイゼーション（GRPO）で訓練されています。実験結果では、既存の報酬モデルよりも優れたパフォーマンスを示しています。

編集部コメント

この研究は、従来の報酬モデルが知識豊富な長文タスクで課題を抱えている現状に対処し、新たなツールOpenRMを開発しています。これはLLMのトレーニングと推論における人間評価のスケーラビリティ問題に対する重要な進歩であり、今後さらなる研究や実装が期待されます。

評価ポイント Assessment

良い点

知識豊富な長文タスクに対応するための新しいツールOpenRMを開発
外部ツールを使用して証拠を集める機能を持つ
グループ相対ポリシーオプティマイゼーション（GRPO）で訓練

業界・社会への影響 Impact

この研究は、長文タスクの評価をより効率的かつ正確に行うための新しいアプローチを提供し、大規模言語モデル(LLM)のトレーニングと推論における人間の評価のスケーラビリティ問題に貢献します。

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

OpenReward: 長文タスク向け強化学習による報酬モデルの学習

arXiv cs.CL

https://arxiv.org/abs/2510.24636

この記事の見取り図

読む前に確認
記事の読み解き
参照元
AI要約について
関連記事

キーワード

報酬モデル大規模言語モデル強化学習グループ相対ポリシーオプティマイゼーション外部ツール

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.CL
公開日	2026-07-02

元記事の説明文

arXiv:2510.24636v3 Announce Type: replace Abstract: Reward models (RMs) have become essential for aligning large language models (LLMs), serving as scalable proxies for human evaluation in both training and inference. However, existing RMs struggle on knowledge-intensive and long-form tasks, where evaluating correctness requires grounding beyond the model's internal knowledge. This limitation hinders them from reliably discriminating subtle quality differences, especially when external evidence is necessary. To address this, we introduce OpenRM, a tool-augmented long-form reward model that systematically judges open-ended responses by invoking external tools to gather relevant evidence. We train OpenRM with Group Relative Policy Optimization (GRPO) on over 27K synthesized pairwise examples generated through a controllable data synthesis framework. The training objective jointly supervises intermediate tool usage and final outcome accuracy, incentivizing our reward model to learn effective evidence-based judgment strategies. Extensive experiments on three newly-collected datasets and two widely-used benchmarks demonstrate that OpenRM substantially outperforms existing reward modeling approaches. As a further step, we integrate OpenRM into both inference-time response selection and training-time data selection. This yields consistent gains in downstream LLM alignment tasks, highlighting the potential of tool-augmented reward models for scaling reliable long-form evaluation.