LLMの真の能力はどのベンチマークで測れるか?ISOSCIが示す新たな問い
ISOSCI: LLMにおける推論と知識検索能力を評価する等価な跨域科学問題ベンチマーク
査読前の可能性がある研究情報
ISOSCIはLLMの推論と知識検索能力を分離して評価する新しいベンチマークです。
arXiv cs.AI
毎日更新・AIニュース考察
ISOSCI: LLMにおける推論と知識検索能力を評価する等価な跨域科学問題ベンチマーク
査読前の可能性がある研究情報
ISOSCIはLLMの推論と知識検索能力を分離して評価する新しいベンチマークです。