LLMの真の能力はどのベンチマークで測れるか?ISOSCIが示す新たな問い
ISOSCI: LLMにおける推論と知識検索能力を評価する等価な跨域科学問題ベンチマーク
査読前の可能性がある研究情報
ISOSCIはLLMの推論と知識検索能力を分離して評価する新しいベンチマークです。
arXiv cs.AI
毎日更新・AIニュース考察
ISOSCI: LLMにおける推論と知識検索能力を評価する等価な跨域科学問題ベンチマーク
査読前の可能性がある研究情報
ISOSCIはLLMの推論と知識検索能力を分離して評価する新しいベンチマークです。
Balyasny Asset Managementは、AI技術を活用した革新的な投資リサーチプラットフォームを開発
速報・AI要約未精査
こんな人に金融業界のAI担当者・投資リサーチチーム
OpenAI NewsHugging FaceがオープンLLMリーダーボードの数学的検証手法を提案
こんな人に機械学習エンジニア・AI研究者
Hugging Face BlogAnthropicがAIモデルの透明性と信頼性を高めるための新しい評価イニシアチブを発表
速報・AI要約未精査
こんな人にAI開発者・データサイエンティスト
Anthropic News