報酬ハッキング対策としての不確実性に配慮した強化学習アプローチ
報酬ハッキング対策としての不確実性に配慮した報酬割引法
査読前の可能性がある研究情報
不確実性に配慮した報酬割引法が、強化学習における人間フィードバックの問題を解決する可能性がある
arXiv cs.AI
毎日更新・AIニュース考察
報酬ハッキング対策としての不確実性に配慮した報酬割引法
査読前の可能性がある研究情報
不確実性に配慮した報酬割引法が、強化学習における人間フィードバックの問題を解決する可能性がある