PRISMがマルチモーダルRLのパフォーマンス向上に与える影響とは?
SFTとRL間の分布調整によるマルチモーダルRLの改善
査読前の可能性がある研究情報
PRISMは、SFTとRL間の分布調整を改善することでマルチモーダルモデルの強化学習パフォーマンスを向上させる
速報・AI要約未精査
arXiv cs.CL
毎日更新・AIニュース考察
SFTとRL間の分布調整によるマルチモーダルRLの改善
査読前の可能性がある研究情報
PRISMは、SFTとRL間の分布調整を改善することでマルチモーダルモデルの強化学習パフォーマンスを向上させる
速報・AI要約未精査