Preprint · ✓完成 · 深堀り済 2026.06.11 LLM応用評価:プロンプト改善は必ずしも正解ではないか? 汎用プロンプト改善の限界:LLM応用評価の繰り返し改良法 査読前の可能性がある研究情報 汎用プロンプト改善が必ずしもLLM応用の性能向上につながらないことを示す研究 Minimum Viable Evaluation Suite (MVES) Llama 3 8B Instruct Qwen 2.5 7B Instruct prompt engineering arXiv cs.AI