← トップへ戻る

プレプリント ·研究論文 ·完成記事 ·AIによる読み解き

LLMによるJSON生成、トークン長制約を克服できるか？

TruncProofは、LLMがトークン長制約下で文法的に正しいJSONを生成するための手法を提案

元記事タイトル: TruncProof: LLMによるJSON生成におけるトークン長制約への対応

arXiv cs.CL 2026年06月24日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

TruncProofはLLMによるJSON生成における最大トークン数の厳格な制限に対応
LL(1)パーサーの特性を利用した効率的な近似アルゴリズムを採用
実騐結果で文法的に正しい出力を生成できることを示す

こんな人に関係ある話

AIエンジニアシステム統合担当者機械学習研究者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

arXiv cs.CLに掲載された研究では、LLMが機械読み取り可能な出力（例えばJSON）を生成する際の最大トークン数の厳格な制限を課すことが難しいという問題に対処するために、TruncProofと呼ばれる新しい文法拘束付き生成手法が提案されています。この手法はLL(1)パーサーの特性を利用して、予め定義されたトークン制限内で文法的に正しいJSONを生成します。

編集部コメント

この研究はLLMがJSON形式などの機械読み取り可能なデータを生成する際の課題に対処し、その解決策としてTruncProofという手法を提案しています。これは、AI技術が実用的なシステム統合に向けた一歩前進と言えるでしょう。

評価ポイント Assessment

良い点

LLMによるJSON生成における最大トークン数の厳格な制約を可能にする
LL(1)パーサーの特性を利用した効率的な近似アルゴリズム
実験結果で文法的に正しい出力を生成できることを示している

懸念点

提案手法が全てのJSON生成タスクに適用可能かどうかは不明確

業界・社会への影響 Impact

この研究は、LLMによる機械読み取り可能なデータ形式への変換において重要な進歩を示しています。特に、トークン長制約下での正確な出力生成は、システム統合における信頼性と効率性の向上に貢献すると期待されます。

深堀り Deep Dive

前提知識

大規模言語モデル（LLM）は、JSONなどの機械読み取り可能な構造化データを生成する能力を持つが、生成トークン数の制限が厳密に課されることは困難だった。これにより、無限生成や出力の途中打ち切りが発生し、システムの不具合を引き起こす可能性があった。この課題に対処するため、文法制約を組み込んだ生成手法の研究が進んできた。

何が新しいのか

TruncProofは、LL(1)パーサーの特性を活用し、事前に定義されたトークン数の制限内で文法的に正しいJSONを生成する新しい手法である。従来の方法ではトークン数制限を厳密に守るのが難しかったが、TruncProofは生成過程でトークン数の下限を推定し、制限内で構文が正しい出力を生成することにより、この問題を解決している。

今後見るべき論点

LL(1)パーサーの特性を他の構文形式に応用できるか
TruncProofが他の構造化データ形式（XMLやYAMLなど）にも適用可能か
生成精度とトークン制限のトレードオフがどのように調整されるか

用語解説

LLM 大規模言語モデル。大量のテキストデータを学習し、自然言語を理解・生成するAIモデル

JSON JavaScript Object Notationの略。構造化されたデータを表すための軽量なデータ形式

LL(1)パーサー文法解析に用いられるアルゴリズムで、文法の構造に基づいて入力を解析する

トークン自然言語処理において、文章を分割した最小の意味単位。単語や記号が該当する

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

TruncProof: LLMによるJSON生成におけるトークン長制約への対応

arXiv cs.CL

https://arxiv.org/abs/2605.13076

Fugu-MT 論文翻訳(概要): TruncProof: A Guardrail for LLM-based JSON Generation under Token-Length Constraints https://fugumt.com/fugumt/paper_check/2605.13076v1 used in analysis

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

LLM JSON生成トークン長制約文法拘束付き生成 LL(1)パーサー

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

記事データ

Source	プレプリント
Category	研究論文
Status	完成記事
出典	arXiv cs.CL
公開日	2026-06-24

元記事の説明文

arXiv:2605.13076v2 Announce Type: replace Abstract: The LLM-based generation of machine-readable outputs such as JSON has attracted significant attention for integration with external systems. However, existing approaches cannot strictly enforce the maximum number of tokens to be generated, leading to infinite generation or truncated outputs that cause a system malfunction. To address this limitation, we propose TruncProof, a novel grammar-constrained generation method that enables LLMs to produce grammatically valid JSONs while adhering to a predefined token limit. By leveraging the properties of LL(1) parsers, TruncProof efficiently approximates the minimum number of tokens required to complete a grammatically valid output at each decoding step. Experiments on the Text-to-JSON instruction tasks demonstrate that TruncProof successfully generates syntactically correct outputs even under strict token constraints. Furthermore, we show that TruncProof can be effectively combined with advanced decoding strategies, resulting in outputs that are not only grammatically valid but also semantically accurate.