Preprint · 速報 · AI要約未精査 2026.06.26 言語モデルの迎合傾向、制御可能か?——新たな検出手法が明らかに 言語モデルの迎合傾向検出と制御に関する研究 査読前の可能性がある研究情報 言語モデルの迎合傾向を検出し制御する新しい手法が提案されました。 速報・AI要約未精査 sycophancy cascading linear features activation steering arXiv cs.AI