← トップへ戻る

プレプリント ·研究論文 ·完成記事 ·AIによる読み解き

ネガティブSGOsが持つ価値——ReNIOで明らかにされたLLM学習の新潮流

ReNIOは、LLMのオンポリシーディストリルにおける不正解SGOsの重要性を再評価し、モデル性能向上を目指す手法

元記事タイトル: ReNIO: LLMのオンポリシーディストillationにおけるネガティブ軌跡重要度の再加重

arXiv cs.AI 2026年06月23日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

ReNIOはネガティブ軌跡の重要度を再加重する
数学的推論とコード生成タスクでパフォーマンス改善が確認された
探索的な思考が維持されることから、柔軟な問題解決能力を持つモデル開発に貢献

こんな人に関係ある話

機械学習エンジニア AI研究者 LLM開発者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、大規模言語モデル(LLM)のオンポリシーディストリル(学生モデルが自ら生成した出力を用いて学習する方法)において、正解と不正解の学生生成出力(SGOs)に対するアセスメントを再評価します。実験結果から、不正解SGOsのみで訓練すると、より長い推論トレースと探索的な思考が維持されることが明らかになりました。そこで提案されたReNIOは、ネガティブ軌跡の重要度を再加重し、最終的な答えの正確性に関係なく重み付けを行うことで、モデルの性能向上を目指します。

編集部コメント

この研究は、LLMのオンポリシーディストリルにおける不正解SGOsの重要性を再評価し、新たな手法ReNIOを提案しています。これにより、従来よりも効率的な学習が可能となり、モデルのパフォーマンス向上に寄与すると期待されます。

評価ポイント Assessment

良い点

不正解SGOsのみで訓練することで探索的思考が維持される
ReNIOはネガティブ軌跡の重要度を再加重し、最終的な答えの正確性に関係なく重み付けを行う
数学的推論とコード生成タスクにおいて性能向上が確認された

業界・社会への影響 Impact

この研究は、LLMのオンポリシーディストリルにおける学習効率を高めることで、モデルのパフォーマンス改善に寄与します。特に数学的推論やコード生成などのタスクにおいて、探索的な思考が維持されることから、より柔軟な問題解決能力を持つモデルの開発につながる可能性があります。

深堀り Deep Dive

前提知識

大規模言語モデル（LLM）の性能向上には、教師モデルの知識を学生モデルに効果的に移す技術が不可欠である。その中で、オンポリシーディストリル（OPD）は、学生モデルが自ら生成した出力（SGO）を用いて学習する方法として注目されており、LLMの推論能力やコード生成能力の向上に寄与している。しかし、従来のOPDでは、SGOの情報量に関係なくすべての出力を同様の重みで扱うため、最適な学習が得られなかった。

何が新しいのか

本研究は、SGOの正誤にかかわらず、ネガティブな推論軌跡（誤った出力）が学習に重要な情報を含んでいることに着目し、その重要度を再加重する「ReNIO」という新しい技術を提案している。従来の方法では不正解SGOのみで学習するほうが性能が向上する現象が見られていたが、ReNIOは最終的な答えの正誤を確認せずに、学生モデルと教師モデルの確率比をもとに、誤りの原因となったトークンを特定し、重み付けを行うことで、より効率的な学習を実現している。

今後見るべき論点

ReNIOの適用範囲が数学的推論以外のタスク（例：自然言語処理や多言語処理）にも拡張される動向
ネガティブ軌跡の重要度を再加重する手法が他のディストリル手法に統合される可能性
ReNIOがLLMの推論トレースの長さや探索性に与える影響についてのさらなる研究

用語解説

オンポリシーディストリル（OPD）学生モデルが自ら生成した出力を使って学習する方法で、LLMの推論能力や生成能力を向上させる技術

学生生成出力（SGO）学生モデルが自ら生成した出力で、ディストリルの際の学習データとなる

ReNIO 誤った推論軌跡の重要度を再加重する技術で、最終的な答えの正誤を確認せずに学習効率を高める

ネガティブ軌跡誤った推論の過程を指し、学習において重要な情報を含んでいるとされる

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

ReNIO: LLMのオンポリシーディストillationにおけるネガティブ軌跡重要度の再加重

arXiv cs.AI

https://arxiv.org/abs/2606.23104

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

LLM オンポリシーディストリル学生生成出力(SGOs) ReNIO ネガティブ軌跡重要度

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

記事データ

Source	プレプリント
Category	研究論文
Status	完成記事
出典	arXiv cs.AI
公開日	2026-06-23

元記事の説明文

arXiv:2606.23104v1 Announce Type: cross Abstract: On-policy distillation (OPD) improves LLM reasoning by training a student model on its own generated outputs, but standard OPD treats all student-generated outputs (SGOs) equally regardless of their informativeness. We observe a consistent asymmetry in controlled filtering experiments: in both OPD and on-policy self distillation (OPSD), training only on incorrect SGOs outperforms training only on correct ones. Our further analysis suggests that models trained on correct-only SGOs tend to generate shorter reasoning traces and show weaker reflection behavior, while incorrect SGOs better preserve exploratory reasoning near the model's capability boundary. To exploit this signal without requiring full answer-containing rollouts, we introduce ReNIO, which Reweights Negative trajectory Importance for LLM On-policy distillation. By using the student-to-teacher probability ratio, ReNIO identifies pivotal tokens leading to wrong reasoning traces and aggregates their information into a normalized sample weight, inherently assigning larger weights to likely negative trajectories without observing the correctness of final-answer. Since Re-NIO only uses prefix-conditioned token probabilities, it preserves OPD's prefix training advantage over full-rollout reinforcement learning. Across both mathematical reasoning and code generation tasks, ReNIO improves both OPD and OPSD, with representative relative gains of up to 8.90% for Qwen3-1.7B and 10.00% for R1-Distill-Qwen-7B on mathematical reasoning benchmarks. Code repo: https://github.com/BDML-lab/ReNIO.