行動科学におけるAIモデル評価の新基準:BehaviorBenchとは何か?
BehaviorBench: 行動科学タスク向け基盤モデル評価ベンチマーク
査読前の可能性がある研究情報
BehaviorBenchは、行動科学タスク向けの基礎モデルを包括的に評価するベンチマーク
arXiv cs.CL
毎日更新・AIニュース考察
BehaviorBench: 行動科学タスク向け基盤モデル評価ベンチマーク
査読前の可能性がある研究情報
BehaviorBenchは、行動科学タスク向けの基礎モデルを包括的に評価するベンチマーク
査読前の可能性がある研究情報
大規模言語モデルのパフォーマンス評価において、数学問題の構造的長さが重要な役割を果たすことが示唆されました。
こんな人に機械学習研究者・AIエンジニア
arXiv cs.AI査読前の可能性がある研究情報
大規模言語モデルの性能が人間の専門家と同等であるという主張に新たな視点を提供
速報・AI要約未精査
こんな人にAI研究者・機械学習エンジニア
arXiv cs.AI