Preprint · ✓完成 · 深堀り済 2026.07.01 物理学評価におけるLLMの限界と可能性——タスク依存性から見る 物理学評価におけるLLMの適切性はタスクによってより大きく変わる 査読前の可能性がある研究情報 物理学の評価でLLMが適切かどうかはタスクにより大きく変わる GPT-5.2 Grok 4.1 Claude Opus 4.5 DeepSeek-V3.2 arXiv cs.CL