← トップへ戻る

プレプリント ·研究論文 ·完成記事 ·AIによる読み解き

LLMスクリーニングの限界と改善策：システムレビューにおける挑戦

大規模言語モデルがタイトルとアブストラクトスクリーニングでどのように機能するかを分析し、改善策を提案

元記事タイトル: 大規模言語モデルによるタイトル・アブストラクトスクリーニングの理解：対立から推奨事項へ

arXiv cs.AI 2026年06月17日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

研究ではLLMsの信頼性評価に焦点を当てた
人間とLLMのスクリーニング結果の相違点を特定した
具体的な推奨事項を提供

こんな人に関係ある話

AI研究者システムレビュー担当者大規模言語モデル開発者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、システムレビューにおけるタイトルとアブストラクトのスクリーニングに大規模言語モデル（LLMs）を使用する際の精度や信頼性について検討しています。人間とLLMのスクリーニング結果の相違点を分析し、その原因を特定しました。また、LLMsが失敗する理由や改善策も提案しています。

編集部コメント

この研究は大規模言語モデルがシステムレビューにおけるタイトルとアブストラクトスクリーニングでどのように機能し、その限界点や改善策を見出すことに貢献します。特にLLMの信頼性評価や実用化に向けた具体的な推奨事項は、今後の研究開発において重要な指針となるでしょう。

評価ポイント Assessment

良い点

人間と大規模言語モデル（LLMs）によるスクリーニング結果の比較
LLMsが失敗する具体的な原因の分析
実用的な推奨事項の提供

懸念点

LLMの信頼性に関する未解決の問題点
推奨事項の効果を検証するための将来の研究が必要

業界・社会への影響 Impact

この研究は、大規模言語モデルがシステムレビューにおけるタイトルとアブストラクトスクリーニングでどのように機能し、その限界点や改善策を見出すことに貢献します。これにより、LLMsをより効果的に活用するためのガイドライン開発に役立ちます。

深堀り Deep Dive

前提知識

大規模言語モデル（LLM）は近年進化し、テキスト生成や翻訳などのタスクで人間並みのパフォーマンスを達成しています。しかし、その一方でシステムレビューにおけるタイトルとアブストラクトのスクリーニングという特定の応用分野では、LLMが人間よりも劣る場合があります。この研究は、その原因を探求し、改善策を見いだすことを目的としています。

何が新しいのか

本研究は従来の量的指標に加えて、大規模言語モデル（LLMs）がシステムレビューにおけるタイトルとアブストラクトスクリーニングで失敗する具体的な理由を定性的に調査しています。また、これらの問題点に対して具体的な改善策や推奨事項も提示しており、従来の研究よりも実践的な解決策を提供しています。

今後見るべき論点

LLMがスクリーニングタスクで発揮する能力の制約とその克服法の進歩
LLMsの性能評価に関する新たな指標やフレームワークの開発動向
スクリーニング作業を効率化し、人間とのコラボレーションを促進するためのシステムの向上

用語解説

大規模言語モデル大量のテキストデータから学習された高度なニューラルネットワークモデル。テキスト生成や翻訳、質問応答など多様なタスクで活用される

システムレビュー特定テーマに関するエビデンスを総合的に評価するための研究手法。その一環として、タイトルとアブストラクトのスクリーニングが行われる

アブストラクトスクリーニング記事や論文の内容を要約した部分（アブストラクト）を対象に、関連性や有用性に基づいて選別するプロセス

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

大規模言語モデルによるタイトル・アブストラクトスクリーニングの理解：対立から推奨事項へ

arXiv cs.AI

https://arxiv.org/abs/2606.17588

Understanding LLMs in Title-Abstract Screening - ArXivSignals https://arxivsignals.io/papers/2606.17588 used in analysis

Understanding LLMs in Title-Abstract Screening - arXiv https://arxiv.org/html/2606.17588v1 used in analysis

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

大規模言語モデルタイトルスクリーニングアブストラクトスクリーニングシステムレビュー

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

記事データ

Source	プレプリント
Category	研究論文
Status	完成記事
出典	arXiv cs.AI
公開日	2026-06-17

元記事の説明文

arXiv:2606.17588v1 Announce Type: cross Abstract: Several studies have examined the use of large language models (LLMs) for title-abstract screening in systematic reviews (SRs), reporting mixed accuracy. However, questions of reliability remain largely unaddressed. In this study, we go beyond quantitative LLM-human agreement metrics and qualitatively investigate how and why LLMs fail. We also propose actionable recommendations. We analyzed disagreements between LLMs and researchers across six software engineering SRs and over 1,000 primary study papers. For each SR, papers were screened independently by human experts and LLMs in zero-shot mode, resulting in Kappa values ranging from 0.52 to 0.77. Qualitative analysis suggests that human-LLM disagreement results from recurring, identifiable causes, such as boundary ambiguity in key terms, keyword overemphasization, and incorrect topic inference. Based on these findings, we propose recommendations such as validating semantic understanding before deployment, running multiple LLMs, and focusing validation efforts on borderline cases. Future studies are needed to validate the impact of our recommendations, and community efforts are needed to develop normative guidelines on LLM usage in SRs.