自然言語ポリシーに基づく大規模言語モデルの安全性調整は可能か?
PolicyAlign: 大規模言語モデル向け直接ポリシーベースの安全性調整フレームワーク
査読前の可能性がある研究情報
PolicyAlignは大規模言語モデルの安全性調整において、自然言語ポリシーに基づく直接的な方法を提供します。
速報・AI要約未精査
arXiv cs.CL
毎日更新・AIニュース考察
PolicyAlign: 大規模言語モデル向け直接ポリシーベースの安全性調整フレームワーク
査読前の可能性がある研究情報
PolicyAlignは大規模言語モデルの安全性調整において、自然言語ポリシーに基づく直接的な方法を提供します。
速報・AI要約未精査