思考-回答の一貫性問題、CORAが解決へ
CORA: 多目的RLVRにおける思考-回答の一貫性向上技術
査読前の可能性がある研究情報
CORAは、大規模ビジョン-言語モデルにおける思考-回答の一貫性問題を改善する技術
速報・AI要約未精査
RLVR
Consistency-Oriented Reasoning Alignment (CORA)
Hybrid Reward Advantage Splitting (HRAS)
Group Relative Policy Optimization (GRPO)
arXiv cs.CL