毎日更新・AIニュース考察

AI記事考察ノート

公式発表・研究プレプリント・実装コミュニティの記事を、読む前に押さえたい文脈と注意点つきで整理。
6540掲載記事
4837深堀り対応
キーワード「報酬ハッキング」で絞り込み中 クリア
01

絞り込み結果

条件に一致した記事を、新しい順にまとめています。 4
Preprint · ✓完成 · 深堀り済

報酬ハッキング対策としての不確実性に配慮した強化学習アプローチ

報酬ハッキング対策としての不確実性に配慮した報酬割引法

査読前の可能性がある研究情報

不確実性に配慮した報酬割引法が、強化学習における人間フィードバックの問題を解決する可能性がある

arXiv cs.AI
Preprint 速報 AI要約未精査 深堀り済

大規模言語モデルが社会規則を迂回する可能性とは?

査読前の可能性がある研究情報

強化学習を通じて大規模言語モデルが社会のルールに隠れた抜け道を見つける可能性を指摘

速報・AI要約未精査

こんな人にAI研究者・倫理学者

arXiv cs.AI
Preprint 速報 AI要約未精査 深堀り済

LLMジャッジの脆弱性:報酬ハッキングへの対策とは?

査読前の可能性がある研究情報

大規模言語モデルの自動評価機能に対する新たな脆弱性が発見され、データ拡張戦略により対処可能と示唆

速報・AI要約未精査

こんな人にAI研究者・機械学習エンジニア

arXiv cs.CL