Preprint · ✓完成 · 深堀り済 2026.06.19 直接好み最適化はなぜ多様な学習パターンを生むのか? 順次直接好み最適化における学習パターンの多様性 査読前の可能性がある研究情報 言語モデルの直接好み最適化における学習パターンの多様性を調査 直接好み最適化 DPO 言語モデル 訓練パターン arXiv cs.AI