YOMI-Benchが示す日本語LLMの弱点とは?
YOMI-Bench: 日本語大規模言語モデルの漢字読みと音韻理解評価ベンチマーク
査読前の可能性がある研究情報
日本語の大規模言語モデルが漢字読みと音韂理解で低パフォーマンスを示すことをYOMI-Benchが明らかに
arXiv cs.CL
毎日更新・AIニュース考察
YOMI-Bench: 日本語大規模言語モデルの漢字読みと音韻理解評価ベンチマーク
査読前の可能性がある研究情報
日本語の大規模言語モデルが漢字読みと音韂理解で低パフォーマンスを示すことをYOMI-Benchが明らかに
査読前の可能性がある研究情報
大規模言語モデルの感情管理能力を評価するための新しいシミュレータベースベンチマークEIBenchが提案された。
速報・AI要約未精査
こんな人にAI研究者・大規模言語モデル開発者
arXiv cs.CL査読前の可能性がある研究情報
大規模言語モデルの評価に新たなパラダイムを提案、低ランク因子による能力分析で従来の総合スコアに代わるフレームワークを確立
速報・AI要約未精査
こんな人にAI研究者・大規模言語モデル開発者
arXiv cs.CL