線形Q学習の安定性を高める新手法——λ-ターゲット更新法の理論的意義とは?
幾何平均ハードターゲット更新法による線形Q学習の安定化
査読前の可能性がある研究情報
λ-幾何重みを用いたm期間平均化ターゲット更新法が、線形関数近似を使用するQ学習の安定性向上に寄与
速報・AI要約未精査
arXiv cs.AI
毎日更新・AIニュース考察
幾何平均ハードターゲット更新法による線形Q学習の安定化
査読前の可能性がある研究情報
λ-幾何重みを用いたm期間平均化ターゲット更新法が、線形関数近似を使用するQ学習の安定性向上に寄与
速報・AI要約未精査