AI記事考察ノート

Preprint · 速報 · AI要約未精査 · 深堀り済 2026.06.19

信頼性と妥当性の間：LLM-as-a-Judgeモデルの大規模評価

査読前の可能性がある研究情報

LLM-as-a-Judgeモデルの評価方法における信頼性と妥当性の間での矛盾を指摘

速報・AI要約未精査

LLM-as-a-Judge Cohen's kappa MT-Bench JudgeBench

arXiv cs.CL

Field Note 読みどころ

プレプリント論文（査読前の可能性あり）

AI研究者言語モデル開発者評価手法の専門家

絞り込み結果