← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

スパースリワードが引き起こすLLMの推論ショートカットとは？

スパースリワードがLLMの記憶ショートカットを誘発し、推論性能に悪影響を与えるメカニズムを解明

元記事タイトル: スパースリワードパラドックス：強化学習によるLLMの記憶ショートカットのメカニズム的解析

arXiv cs.CL 2026年06月26日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

スパースリワードによるパレクシティパラドックスは、モデルが推論をスキップして記憶ショートカットを利用する現象を示す
Path Patching, Logit Lensなどの手法を使用し、メカニズムを詳細に解析
研究結果はデータ汚染の問題解決やLLMのトレーニング改善に貢献

こんな人に関係ある話

機械学習エンジニア AI研究者大規模言語モデル開発者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、強化学習と検証可能な報酬（RLVR）が大規模言語モデル（LLM）に与える影響を詳細に分析しています。特に、不適切な報酬でもモデルのパフォーマンスが向上する現象について考察し、そのメカニズムを解明します。研究者は、この現象を「パレクシティパラドックス」と呼び、記憶ショートカットを通じてモデルが推論をスキップすることを示しています。

編集部コメント

この研究は、強化学習と検証可能な報酬が大規模言語モデル（LLM）に与える影響を詳細に解析し、記憶ショートカットを通じた推論スキップ現象のメカニズムを明らかにしています。特に、パレクシティパラドックスという概念を導入することで、不適切な報酬でもモデルが性能向上する理由を説明しています。

評価ポイント Assessment

良い点

パレクシティパラドックスの概念導入
Path Patching, Logit Lensなどの手法を使用した詳細な解析
記憶ショートカットのメカニズムを明らかに

業界・社会への影響 Impact

この研究は、強化学習と検証可能な報酬が大規模言語モデルに与える影響について新たな理解を提供し、データ汚染によるパフォーマンス低下の問題解決に貢献する可能性があります。また、LLMのトレーニング手法や評価指標の改善にも役立つでしょう。

深堀り Deep Dive

前提知識

強化学習（RL）は、AIが環境と相互作用しながら最適な行動を学習する手法として知られている。特に、検証可能な報酬（RLVR）を用いることで、大規模言語モデル（LLM）の推論能力を高めることが可能になった。しかし、報酬が誤っているにもかかわらずモデルのパフォーマンスが向上する現象は、従来の理解では説明が難しく、この研究ではそのメカニズムを明らかにすることを目的としている。

何が新しいのか

本研究では、誤った報酬（スパウリス報酬）がLLMに与える影響を深く解析し、「パレクシティパラドックス」と呼ばれる現象を新たに発見した。この現象では、答えのトークンの確率的複雑さ（ペルプレキシティ）が低下する一方で、プロンプトの文脈の整合性が低下し、モデルが推論をスキップして記憶に基づく答えを生成していることが分かった。これにより、LLMが報酬の誤りにもかかわらず性能を向上させる原因が明確になった。

今後見るべき論点

記憶ショートカットを制御するための適応的なアダプタ設計の進展
報酬の信頼性とモデルの性能の関係性の定量的分析
データ汚染の影響を最小限に抑えるための新しいトレーニング手法の開発

用語解説

強化学習（RL） AIが環境と相互作用し、報酬を最大化する行動を学習する手法

検証可能な報酬（RLVR） LLMが生成した応答が正しいかどうかを検証可能な報酬を用いた強化学習

パレクシティパラドックス誤った報酬でもLLMの性能が向上する現象で、記憶ショートカットが原因とされる

Anchor-Adapter回路記憶に基づく答えの生成を促進するモデル内部の構造

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

スパースリワードパラドックス：強化学習によるLLMの記憶ショートカットのメカニズム的解析

arXiv cs.CL

https://arxiv.org/abs/2601.11061

Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs https://arxiv.org/abs/2601.11061 used in analysis

Paper page - Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs https://huggingface.co/papers/2601.11061 used in analysis

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

RLVR LLM 記憶ショートカットパレクシティパラドックス Path Patching

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.CL
公開日	2026-06-26

元記事の説明文

arXiv:2601.11061v2 Announce Type: replace-cross Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We investigate this phenomenon and identify a "Perplexity Paradox": spurious RLVR triggers a divergence where answer-token perplexity drops while prompt-side coherence degrades, suggesting the model is bypassing reasoning in favor of memorization. Using Path Patching, Logit Lens, JSD analysis, and Neural Differential Equations, we uncover a hidden Anchor-Adapter circuit that facilitates this shortcut. We localize a Functional Anchor in the middle layers (L18-20) that triggers the retrieval of memorized solutions, followed by Structural Adapters in later layers (L21+) that transform representations to accommodate the shortcut signal. Finally, we demonstrate that scaling specific MLP keys within this circuit allows for bidirectional causal steering-artificially amplifying or suppressing contamination-driven performance. Our results provide a mechanistic roadmap for identifying and mitigating data contamination in RLVR-tuned models. Code is available at https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.