ルーブリックベース評価におけるLLMの新たなバイアスとは?
ルーブリックベースのLLM評価における位置バイアス
査読前の可能性がある研究情報
大規模言語モデルのルーブリックベース評価における位置バイアスが明らかに
速報・AI要約未精査
arXiv cs.CL
毎日更新・AIニュース考察
ルーブリックベースのLLM評価における位置バイアス
査読前の可能性がある研究情報
大規模言語モデルのルーブリックベース評価における位置バイアスが明らかに
速報・AI要約未精査
査読前の可能性がある研究情報
BabelJudgeはLLMの評価信頼性を多角的に測定するフレームワークで、特に低リソース言語での問題点を明確化します。
速報・AI要約未精査
こんな人にNLP研究者・AI開発者
arXiv cs.AI