Preprint · ✓完成 · 深堀り済 2026.07.03 臨床応用におけるAI言語モデルの限界とは? 専門家作成の臨床課題における最先端言語モデルの評価 査読前の可能性がある研究情報 専門家作成の臨床シナリオで、GPT, Claude, Gemini のパフォーマンスを評価 HealthBench clinical reasoning tasks GPT 5.4 Claude Opus 4.7 arXiv cs.AI