← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

累積予測誤差が強化学習を変えるか？Curiosity-Criticの挑戦

Curiosity-Criticは、累積予測誤差に基づく内在的報酬を導入し、強化学習の効率性を向上させる

元記事タイトル: 好奇心評価子: 累積予測誤差改善による世界モデルトレーニング用内在的報酬

arXiv cs.AI 2026年06月17日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

Curiosity-Criticは累積予測誤差に基づき内在的報酬を設計
評価子との共通訓練により探索効果が改善される
確率的遷移と学習可能な遷移を区別し、より効率的な学習を可能にする

こんな人に関係ある話

強化学習研究者機械学習エンジニア自動運転開発者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

Curiosity-Criticは、累積予測誤差の向上を内在的報酬として採用し、各ステップでの近似解である現在の予測誤差と漸近的な誤差基準との差分を導入します。学習した評価子とともに世界モデルと共通で訓練することで、学習可能な遷移への探索を促進します。この手法は、確率的遷移に対して報酬がゼロに収束し、知識的（可変）な予測誤差と本質的な（不可変）な予測誤差をオンラインで区別します。

編集部コメント

Curiosity-Criticは、累積予測誤差に基づく内在的報酬を導入することで、従来の方法よりも効率的な強化学習を可能にする画期的な手法です。特に確率的な環境での学習効果が期待でき、今後の研究や実用化に大きな影響を与える可能性があります。

評価ポイント Assessment

良い点

累積予測誤差に基づく内在的報酬の導入により、学習効率が向上する
評価子との共通訓練によって、探索効果が改善される
確率的遷移と学習可能な遷移を区別することで、より効率的な学習が可能になる

懸念点

オンラインで誤差基準の推定精度が評価子の学習速度に依存する可能性がある
世界モデルの性能向上が評価子の収束前に起こる場合、探索効果が低下する恐れがある

業界・社会への影響 Impact

この手法は、強化学習における内在的報酬設計を改善し、特に確率的な環境での学習効率を向上させる可能性があります。これにより、より複雑なシナリオへの適用範囲が広がり、自動運転やロボット工学などの実世界の問題解決に貢献する可能性があります。

深堀り Deep Dive

前提知識

AIの世界モデルトレーニングにおいては、機械学習アルゴリズムが環境と代理をシミュレートするためには正確な予測が必要です。特に、効果的な探索行動を促進するために内在的報酬（好奇心）を利用することが一般的で、これは機械が未知の状況に遭遇したときに新たな知識を得るための動機づけとなります。

何が新しいのか

この研究では、従来の局所的な予測誤差に基づく好奇心報酬とは異なり、訪れた全ての遷移における世界モデルの累積予測誤差を考慮した内在的報酬（Curiosity-Critic）が導入されました。これは、より効果的に学習可能な遷移を探し出すために使用され、漸近的な誤差基準と現在の予測誤差との差分に基づいて報酬を与えるという新しい手法です。

今後見るべき論点

Curiosity-Criticがより複雑な環境モデルでの適用性
学習された評価子（critic）のパフォーマンス向上
本質的な予測誤差と知識的予測誤差のオンライン区別による新たな効果

用語解説

世界モデル機械学習における概念で、環境全体を記述するモデル。代理が未知な状況でも予測を行い、行動を選択するために使用される

累積予測誤差時間経過に伴い蓄積された予測の誤差の合計。より正確な世界モデルを構築するためにはこれを最小化することが求められる

評価子（critic）強化学習において、特定行動の価値や報酬を評価する機能を持つ部分。本研究では累積予測誤差基準を学習する役割を果たす

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

好奇心評価子: 累積予測誤差改善による世界モデルトレーニング用内在的報酬

arXiv cs.AI

https://arxiv.org/abs/2604.18701

好奇心批評家：世界モデル訓練のための扱いやすい内発的報酬としての累積予測誤差の改善 https://trend.data-axis.net/articles/12566 used in analysis

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

Curiosity-Critic 内在的報酬累積予測誤差世界モデル強化学習

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.AI
公開日	2026-06-17

元記事の説明文

arXiv:2604.18701v3 Announce Type: replace-cross Abstract: Local prediction-error-based curiosity rewards focus on the current transition without considering the world model's cumulative prediction error across all visited transitions. We introduce Curiosity-Critic, which grounds its intrinsic reward in the improvement of this cumulative objective, and show that it admits a tractable per-step surrogate: the difference between the current prediction error and the asymptotic error baseline of the current state transition. We estimate this error baseline online with a learned critic co-trained alongside the world model; since the critic only has to learn how hard a transition is to predict, its estimate of the irreducible noise floor converges well before the world model saturates, redirecting exploration toward learnable transitions. The reward is higher for learnable transitions and collapses toward zero for stochastic ones, thereby separating epistemic (reducible) from aleatoric (irreducible) prediction error online. Prior prediction-error curiosity formulations, from Schmidhuber (1991) to learned-feature-space variants, emerge as special cases corresponding to specific approximations of this error baseline. Experiments on a stochastic grid world show that Curiosity-Critic outperforms prediction-error, visitation-count, and Random Network Distillation methods in training speed and final world model accuracy.