Official · 速報 2025.02.14 数学的検証で信頼性アップ——オープンLLMリーダーボードの新提案とは? オープンLLMリーダーボードの数学的検証で改善 Hugging FaceがオープンLLMリーダーボードの数学的検証手法を提案 LLMリーダーボード Math-Verify モデル評価 Hugging Face Blog