← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

零ショット定理証明の新たな地平線：VERITASが開く可能性

VERITASは、LLMに基づく形式証明システムが検査子フィードバックを効果的に活用するための新しいフレームワークを提案します。

元記事タイトル: VERITAS: 零ショット形式定理証明における検査子ガイド型証明探索フレームワーク

arXiv cs.AI 2026年06月19日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

VERITASは、零ショット定理証明におけるパフォーマンス向上を目指したフレームワークです
2段階プロトコルにより検査子信号が証明探索に直接フィードバックされます
miniF2FとVERITAS-CombiBenchで高いパフォーマンスを達成

こんな人に関係ある話

AI研究者形式論理学者ソフトウェアエンジニア

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、LLMに基づく形式証明者が豊富な検査子信号を二値の通過/失敗に圧縮する問題に対処し、VERITASという零ショットフレームワークを提案しています。VERITASは、最良のNサンプリングとその後の評価者ガイド型MCTSパスを通じて検査子信号を証明探索に戻す2段階プロトコルを使用します。このアプローチにより、miniF2Fで40.6%の成功を達成し、VERITAS-CombiBenchでも7.3%のパフォーマンスを示しました。

編集部コメント

この研究は、LLMに基づく形式証明システムの限界を克服し、検査子フィードバックを効果的に活用する新しい手法を提示しています。VERITASフレームワークは、零ショット定理証明におけるパフォーマンス向上に寄与すると期待されます。

評価ポイント Assessment

良い点

検査子信号を証明探索に直接フィードバックする革新的なアプローチ
2段階プロトコルにより、より効果的な零ショット形式定理証明が可能になる
VERITAS-CombiBenchの導入により、新たな評価基準が確立される

懸念点

未解決の問題：完全な検査子フィードバックをどのように実現するか
制約：正しくない補題名の再発見に時間がかかる可能性がある

業界・社会への影響 Impact

この研究は、形式証明の分野で新たな進歩を示し、LLMに基づくシステムがより効率的に検査子フィードバックを利用する方法を提示しています。これにより、零ショット定理証明におけるパフォーマンス向上と、複雑な問題解決への応用可能性が広がるでしょう。

深堀り Deep Dive

前提知識

形式定理証明とは、数学や論理学における命題が真であることを完全に自動化された方法で証明する技術です。近年、大規模言語モデル(LLM)はこの分野で大きな進歩を遂げましたが、これらのモデルはしばしば検査子から得られる豊かなフィードバック（構文エラー、型の不一致など）を二値の通過/失敗に圧縮してしまう欠点があります。

何が新しいのか

VERITASは、LLMベースの形式証明者が検査子からの情報を効果的に利用するための新たなフレームワークです。このフレームワークは、検査子信号を直接証明探索にルーティングすることで従来と異なるアプローチを採用し、より豊かなフィードバックを利用します。

今後見るべき論点

VERITASが他の形式定理証明問題セットでどのようにパフォーマンスを発揮するか
検査子からの詳細なフィードバック情報の利用方法の改良
他のAIアーキテクチャとの統合

用語解説

LLM 大規模言語モデル。大量のテキストデータから学習され、文脈を理解し生成する能力を持つAIシステム

MCTS モンテカルロ木探索。決定的な問題空間で最適な行動を選択するために使用されるアルゴリズム

miniF2F 形式定理証明の性能を評価するための標準的なベンチマークセット

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

VERITAS: 零ショット形式定理証明における検査子ガイド型証明探索フレームワーク

arXiv cs.AI

https://arxiv.org/abs/2606.19399

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

VERITAS zero-shot formal theorem proving verifier-guided proof search miniF2F VERITAS-CombiBench

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.AI
公開日	2026-06-19

元記事の説明文

arXiv:2606.19399v1 Announce Type: cross Abstract: LLM-based formal provers often collapse rich verifier signals (syntax errors, type mismatches, partial goal progress) into a binary pass/fail bit. We present VERITAS, a zero-shot framework that routes every verifier signal back into proof search through a two-phase protocol: Best-of-N sampling first, then a critic-guided MCTS pass that ingests Phase 1 failures as explicit negative examples. The protocol preserves every theorem solved by its own Phase 1 sweep, so Phase 2's additional solves are attributable to feedback-driven exploration. VERITAS reaches 40.6% on miniF2F (vs. an independently run Best-of-5 at 36.9%, Portfolio 26.2%) and 7.3% on VERITAS-CombiBench, a 55-theorem combinatorics benchmark we release on which Best-of-5 (1.8%) falls below Portfolio (3.6%), exposing that unguided sampling hurts when correct lemma names must be recovered iteratively from verifier feedback. Artifacts are available on GitHub.