AI記事考察ノート - Signal Field Notes

絞り込み結果

条件に一致した記事を、新しい順にまとめています。 2

Preprint · 速報 · AI要約未精査 · 深堀り済 2026.06.25

ルーブリックベースのLLM評価における位置バイアス

査読前の可能性がある研究情報

大規模言語モデルのルーブリックベース評価における位置バイアスが明らかに

速報・AI要約未精査

LLM-as-a-Judge rubric-based evaluation position bias

arXiv cs.CL

Field Note 読みどころ

プレプリント論文（査読前の可能性あり）

AI研究者機械学習エンジニア教育関連の専門家

Preprint 速報 AI要約未精査深堀り済 06.23

査読前の可能性がある研究情報

BabelJudgeはLLMの評価信頼性を多角的に測定するフレームワークで、特に低リソース言語での問題点を明確化します。

速報・AI要約未精査

こんな人にNLP研究者・AI開発者

arXiv cs.AI