← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

誤ったコンテキストが引き起こす大規模言語モデルのパフォーマンス低下とは？

大規模言語モデルが誤ったコンテキストによってパフォーマンスを落とす「ピジョンホール」現象について調査

元記事タイトル: 誤ったコンテキストによる大規模言語モデルのパフォーマンス低下と誤答

arXiv cs.AI 2026年06月24日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

大規模言語モデルは誤ったコンテキストに影響を受けやすい
会話回数が増えればパフォーマンス低下も悪化する
RLVRの改良版が提案され、パフォーマンス改善に寄与

こんな人に関係ある話

AI研究者大規模言語モデル開発者 LLM利用者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、大規模言語モデル（LLM）が誤ったコンテキストや不適切なリクエストによってパフォーマンスを落とす現象「ピジョンホール」について調査しています。ユーザーからの間違った数学定理の証明要求やバグのあるコードに対する対応などが、モデルに誤答を繰り返させる原因となります。また、会話回数が増えるほどパフォーマンス低下も悪化し、正しい例であっても「ピジョンホール」によるモード崩壊が起こることが示されています。

編集部コメント

この研究は大規模言語モデルにおける重要な課題である「ピジョンホール」現象の解明と対策を提示しており、LLM開発者やユーザーにとって有益な情報源となります。ただし、提案された解決策が全ての状況で有効かどうかについてはさらなる検証が必要です。

評価ポイント Assessment

良い点

大規模言語モデルの誤答やパフォーマンス低下を引き起こす要因を特定
会話回数とパフォーマンス低下との関係性を明らかに
「ピジョンホール」現象に対する対策として、RLVR（リファレンスラベル付き強化学習）の改良版が提案されている

懸念点

誤ったコンテキストによるパフォーマンス低下はモデルの信頼性を損なう可能性がある
「ピジョンホール」現象が発生する条件やその影響範囲についてまだ完全には理解されていない

業界・社会への影響 Impact

この研究は、大規模言語モデルの利用において重要な問題点を指摘し、モデルの信頼性とパフォーマンス向上に向けた新たなアプローチを提案しています。また、誤ったコンテキストが引き起こす問題に対する意識向上も期待されます。

深堀り Deep Dive

前提知識

大規模言語モデル（LLM）は、大量のテキストデータから学習することで多様なタスクに対応可能となり、人間と同様の会話能力を持つことが期待されています。しかし、誤った情報や不適切な要求が与えられた場合に、モデルがパフォーマンスを落とすという課題があります。

何が新しいのか

この研究では、大規模言語モデルが誤答を繰り返し生成する「ピジョンホール」と呼ばれる現象を初めて調査しています。特に、会話の回数が増えるほどパフォーマンス低下も悪化することが示されており、これは従来のLLMの問題点とは異なる新たな観点を提供します。

今後見るべき論点

ピジョンホール現象を克服するための新しい学習技術の開発動向
大規模言語モデルが誤答を繰り返さない新しいアルゴリズムやアプローチの提案と評価
実際のユーザーエクスペリエンスにおいて、ピジョンホール現象がどのように影響を与えるかの調査

用語解説

ピジョンホール（Pigeonholing）誤った情報や不適切な要求によって引き起こされる、大規模言語モデルのパフォーマンス低下と誤答繰り返し現象

コンテキスト学習会話の中で前後の文脈を参照しながら理解を深める、自然言語処理における重要な手法

モード崩壊（Mode Collapse）機械学習モデルが特定の状況や条件で過度に特化し、一般化能力を失う現象

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

誤ったコンテキストによる大規模言語モデルのパフォーマンス低下と誤答

arXiv cs.AI

https://arxiv.org/abs/2606.24267

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

大規模言語モデルピジョンホールパフォーマンス低下誤答 RLVR

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.AI
公開日	2026-06-24

元記事の説明文

arXiv:2606.24267v1 Announce Type: cross Abstract: While in-context learning is generally shown to be effective in Large Language Models (LLMs), bad contexts can cause performance degradation and mode collapse, a phenomenon we call "pigeonholing." **Unintentionally bad** contexts can happen without malicious jailbreaking intents: For example, a user asks the model to justify an incorrect math theorem or fails to correct the model's buggy code. Specifically, we investigate ``pigeonholing" in two scenarios: (1) when the user suggests a solution, and (2) when the conversation context includes the assistant's previous (incorrect) responses. Our experiments across 10 verifiable and open-ended tasks with 10 different models show that pigeonholing manifests in several ways: (1) repeating the incorrect answers from context (leading to 38-40% performance drop), (2) converging on a narrow set of answers in coding and text generation without exploring alternatives, and (3) flipping stance on controversial topics to align with the user or the assistant's previous claims. We find that pigeonholing worsens almost monotonically with the number of conversation turns (performance drops by additional 14+% as repeated mistakes increase from 1 to 5), and pigeonholing-induced mode collapse can happen even when the provided example is correct. As a step toward mitigation, we propose RLVR with synthetic errors which improves models by 43-60% under bad contexts compared to vanilla RLVR baselines.