SHAPOが示す安全な強化学習の新視点
SHAPO: 安全な探索のために鋭敏さに着目したポリシーオプティマイゼーション
査読前の可能性がある研究情報
SHAPOはパラメータ変動に対する感度を利用して安全な強化学習探索を可能にする手法
速報・AI要約未精査
arXiv cs.AI
毎日更新・AIニュース考察
SHAPO: 安全な探索のために鋭敏さに着目したポリシーオプティマイゼーション
査読前の可能性がある研究情報
SHAPOはパラメータ変動に対する感度を利用して安全な強化学習探索を可能にする手法
速報・AI要約未精査