← トップへ戻る

プレプリント ·研究論文 ·完成記事 ·AIによる読み解き

精神科診断支援におけるLLMの限界と可能性——LingxiDiagBenchが示す道筋

精神科診断支援におけるLLM評価フレームワークLingxiDiagBenchが開発された

元記事タイトル: 精神科診断支援におけるLLM評価フレームワークLingxiDiagBench

arXiv cs.CL 2026年06月12日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

LingxiDiagBenchは、精神障害の診断を支援する多エージェントフレームワーク
二値分類では高い精度を示すが、多重障害診断では課題あり
ダイナミックな多ターンコンサルテーションの重要性が強調される

こんな人に関係ある話

AI研究者精神科医データサイエンティスト

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、精神障害の診断においてAIが果たす役割について考察しています。特に、精神科医不足と面接による診断の主観性を克服するための多エージェントフレームワークLingxiDiagBenchを開発しました。これは16,000件以上の症例データセットに基づき、二値分類や多重障害診断など、LLMが精神科診療シミュレーションでどの程度正確に性能を発揮できるか評価します。

編集部コメント

この研究は、精神科診断におけるAIの役割と課題を深く掘り下げています。特に、ダイナミックな多ターンコンサルテーションの重要性と情報収集戦略の改善が必要であることが示唆されています。

評価ポイント Assessment

良い点

LingxiDiagBenchは、実際の臨床状況を再現する大規模なデータセットを提供
二値分類での高い精度と多重障害診断における課題が明らかに
ダイナミックな多ターンコンサルテーションの重要性

懸念点

多重障害や12種類の精神疾患に対する診断精度が低い
情報収集戦略の改善が必要

業界・社会への影響 Impact

この研究は、AIによる精神科診断支援の可能性と課題を明らかにし、今後の発展に向けた重要な指針を提供します。特に、多エージェントシステムの開発やデータセットの拡充が期待されます。

深堀り Deep Dive

前提知識

精神障害の診断において、世界的には精神科医不足と面接による主観的な診断が課題となっています。AI技術を活用することでこれらの問題を解決する可能性がありますが、現状ではリアルな患者シミュレーションや専門家確認のための適切な評価フレームワークが存在しません。

何が新しいのか

本研究では、多エージェントフレームワークLingxiDiagBenchを開発し、大規模な症例データセットを使用してLLMを評価しています。これにより、二値分類や多重障害診断の精度が確認でき、AIによる精神科診療支援の現状と課題を明らかにしました。

今後見るべき論点

LingxiDiagBenchを通じてLLMの性能向上がどの程度可能か
新規症例や言語へのフレームワークの拡張可能性
臨床上の信頼性と倫理的な問題

用語解説

LLM Large Language Model（大規模な言語モデル）の略称。多くの文書から学習し、人間らしい会話や文章作成能力を持つAIシステムです

ICD-10 国際疾病分類第10版。世界保健機関が定める精神障害を含む全医学的な診断基準の集大成です

Multi-Agent System 複数のエージェント（代理役）が協調してタスクを達成するシステム。それぞれが独自の目標を持ち、他のエージェントと交渉や調整を行います

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

精神科診断支援におけるLLM評価フレームワークLingxiDiagBench

arXiv cs.CL

https://arxiv.org/abs/2602.09379

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

LingxiDiagBench LLM 精神科診断多エージェントフレームワーク ICD-10

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

記事データ

Source	プレプリント
Category	研究論文
Status	完成記事
出典	arXiv cs.CL
公開日	2026-06-12

元記事の説明文

arXiv:2602.09379v3 Announce Type: replace-cross Abstract: Mental disorders are highly prevalent worldwide, but the shortage of psychiatrists and the inherent subjectivity of interview-based diagnosis create substantial barriers to timely and consistent mental-health assessment. Progress in AI-assisted psychiatric diagnosis is constrained by the absence of benchmarks that simultaneously provide realistic patient simulation, clinician-verified diagnostic labels, and support for dynamic multi-turn consultation. We present LingxiDiagBench, a large-scale multi-agent benchmark that evaluates LLMs on both static diagnostic inference and dynamic multi-turn psychiatric consultation in Chinese. At its core is LingxiDiag-16K, a dataset of 16,000 EMR-aligned synthetic consultation dialogues designed to reproduce real clinical demographic and diagnostic distributions across 12 ICD-10 psychiatric categories. Through extensive experiments across state-of-the-art LLMs, we establish key findings: (1) although LLMs achieve high accuracy on binary depression--anxiety classification (up to 92.3%), performance deteriorates substantially for depression--anxiety comorbidity recognition (43.0%) and 12-way differential diagnosis (28.5%); (2) dynamic consultation often underperforms static evaluation, indicating that ineffective information-gathering strategies significantly impair downstream diagnostic reasoning; (3) consultation quality assessed by LLM-as-a-Judge shows only moderate correlation with diagnostic accuracy, suggesting that well-structured questioning alone does not ensure correct diagnostic decisions. We release LingxiDiag-16K and the full evaluation framework to support reproducible research at https://github.com/Lingxi-mental-health/LingxiDiagBench.