大規模言語モデルが胸部CT解析に与える影響とは？

大規模言語モデルが胸部CTデータセットのラベルクリーニングに有効であることを示す研究

元記事タイトル: 大規模言語モデルを活用した胸部CTデータセットからのレポート派生ラベルのクリーニング

arXiv cs.AI 2026年06月23日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

GPT-5.4を用いたラベルクリーニングは、CT-RATEデータセットで96.4%の一致率を達成
リンパ節病変では低い一致率が確認されたが、放射線科医による最終判定では支持される割合が高い
この手法は他の医療画像解析にも応用可能である可能性がある

こんな人に関係ある話

医療AIエンジニア放射線科医データサイエンティスト

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、大規模な公開胸部CTデータセットであるCT-RATEにおいて、GPT-5.4を含む大規模言語モデル（LLM）によるラベルクリーニングが可能かどうか評価しています。2万4千件以上のレポートから生成されたバイナリラベルと既存のCT-RATEラベルとの一致率は96.4%、Cohenのκ値は0.884を示しました。リンパ節病変では最も低い一致率となりましたが、放射線科医による最終判定ではGPT-5.4生成ラベルが支持される割合が高いことが確認されました。

編集部コメント

この論文は、大規模言語モデルが医療画像解析におけるレポートベースのラベルクリーニングに有効であることを示唆しています。CT-RATEデータセットの品質向上だけでなく、他の医療分野でも同様の手法が適用可能かどうかが今後の研究課題となります。

評価ポイント Assessment

良い点

大規模言語モデルの応用可能性が実証された
CT-RATEデータセットの品質向上に寄与する可能性がある
放射線科医とLLMのラベルの一貫性を高める

業界・社会への影響 Impact

この研究は、大規模言語モデルが医療画像解析におけるレポートベースのラベルクリーニングに有効であることを示唆し、今後の臨床応用やデータセット品質向上に寄与する可能性があります。ただし、リンパ節病変での低い一致率を改善するためのさらなる研究が必要です。

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

大規模言語モデルを活用した胸部CTデータセットからのレポート派生ラベルのクリーニング

arXiv cs.AI

https://arxiv.org/abs/2606.22382

この記事の見取り図

読む前に確認
記事の読み解き
参照元
AI要約について
関連記事

キーワード

GPT-5.4 LLM CT-RATE ラベルクリーニング放射線科

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.AI
公開日	2026-06-23

元記事の説明文

arXiv:2606.22382v1 Announce Type: cross Abstract: Purpose: To evaluate whether large language model (LLM)-assisted label cleaning can identify label-report discordance in CT-RATE, a large-scale public chest CT dataset. Materials and Methods: After report-level deduplication, 24,446 unique radiology reports were identified. Twelve reports were excluded from the primary GPT-5.4 analysis because of Microsoft Azure AI Foundry content-safety filtering, leaving 24,434 reports and 439,812 label instances across 18 abnormality categories. GPT-5.4-derived binary labels were generated from report text using structured JSON output and compared with existing CT-RATE labels. Discordant instances were adjudicated by radiologists. In addition, 100 randomly sampled reports were manually annotated to compare CT-RATE labels, individual LLM-derived labels, and multi-LLM majority-vote labels against radiologist-annotated reference labels. Results: Overall agreement between GPT-5.4-derived and CT-RATE labels was 96.4%, with Cohen's kappa of 0.884. Lymphadenopathy showed the lowest agreement and kappa. In discordance review, radiologist adjudication supported GPT-5.4-derived labels in 72 of 97 (74.2%) general discordant instances and 91 of 99 (91.9%) targeted lymphadenopathy discordant instances. Against radiologist-annotated reference labels, multi-LLM majority-vote labels achieved the highest label-macro-averaged F1 score and Cohen's kappa. Conclusion: LLM-assisted label cleaning identified clinically meaningful label-report discordance in CT-RATE and may support scalable quality improvement of public imaging datasets. The cleaned dataset will be made publicly available to support future research.