信頼性を問い直す:Lean定理証明ベンチマークの新たな挑戦
形式ベンチマークにおける欠陥:Lean定理証明データセットと評価手法の問題点
査読前の可能性がある研究情報
Lean定理証明のベンチマークに存在する欠陥と評価手法の問題点を指摘
arXiv cs.AI
毎日更新・AIニュース考察
形式ベンチマークにおける欠陥:Lean定理証明データセットと評価手法の問題点
査読前の可能性がある研究情報
Lean定理証明のベンチマークに存在する欠陥と評価手法の問題点を指摘