← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

競技プログラミングにおけるLLM評価の新地平：UOJ-Benchとは何か？

UOJ-Benchは競技プログラミングにおける大規模言語モデルの能力を評価する新たなベンチマーク

元記事タイトル: 競技プログラミングにおけるコード生成・ハッキング・修正能力評価の新ベンチマーク：UOJ-Bench

arXiv cs.AI 2026年06月12日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

UOJ-Benchはコード生成、ハッキング、修正能力を評価
一発評価では50%以上のエラー特定が困難
スケーリングにより成功確率90%以上に

こんな人に関係ある話

競技プログラミング愛好家大規模言語モデル研究者教育技術開発者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、大規模言語モデル(LLMs)が競技プログラミングにおいて問題解決だけでなく、人間が書いたコードのエラーを特定する能力を評価するために設計された新たなベンチマーク「UOJ-Bench」が紹介されています。UOJ-Benchは、実際のオンラインジャッジシステム上で提出されたコードから構築され、コード生成、コードハッキング、コード修正という3つのタスクで構成されています。評価結果では、最も強力なモデルでも一発評価では50%以上の提出物に含まれるエラーを特定できず、テスト時間のスケーリングが成功確率を90%以上に引き上げますが、推論コストが高いため大規模展開には適していません。一方で、最良のモデルは30問程度の問題において5%以上の得点提出物に含まれるエラーを特定できることから、現行のジャッジシステムを超える補完的な信号を提供できることが示されています。

編集部コメント

UOJ-Benchは競技プログラミングにおけるLLMsの能力を多角的に評価し、教育的な側面からもその可能性を探る重要な研究である。しかし、高コストな推論により実用性に課題があることから、今後の進化が注目される。

評価ポイント Assessment

良い点

UOJ-Benchは競技プログラミングにおけるLLMsの多様な能力を評価するための新しいフレームワークを提供
コード修正タスクでは、モデルが人間が書いたコードのエラーを特定する能力を測定
テスト時間のスケーリングにより成功確率が大幅に向上するものの、推論コストが高い

懸念点

一発評価での性能は依然として低い
高コストな推論により大規模展開には課題がある

業界・社会への影響 Impact

この研究は、競技プログラミングにおけるLLMsの能力をより深く理解し、教育的な側面からもその可能性を探る上で重要な一歩となる。また、モデルの評価手法や実用性に関する新たな視点を提供する。

深堀り Deep Dive

前提知識

競技プログラミングでは、コンピュータプログラムの作成と実行能力が評価される。大規模言語モデル(LLMs)は、これらのタスクを自動化または支援する可能性を持つが、それらの正確性や効率性はまだ十分に検証されていない。従来の競技プログラミングでは問題解決能力のみが評価され、コード生成、ハッキング、修正といった多面的なスキルセットの評価は行われていなかった。

何が新しいのか

UOJ-Benchは大規模言語モデル(LLMs)を対象とした新たなベンチマークで、コード生成、コードハッキング、コード修正能力を評価する。これによりLLMsが人間のコードに含まれるエラーを特定し修正する能力も評価可能となる。従来は問題解決のみが評価されていたのに対し、この新システムでは多面的なプログラミングスキルを含む評価が可能となる。

今後見るべき論点

LLMsがコード生成や修正タスクで現実世界でのアプリケーションを持つ範囲と限界は何か？
UOJ-Benchの評価基準が今後どのように進化・拡張されるか？
効率的なエラー特定と修正を可能にするため、モデルの推論コスト削減や新しいアルゴリズム開発の動向に注目

用語解説

大規模言語モデル (LLM) 大量のテキストデータを学習し、多様な自然言語処理タスクに対応することができる人工知能システム

オンラインジャッジシステムプログラミングコンテストなどで提出されたソースコードが正しく動作するか判定を行うウェブベースのサービス

コード生成自動的にプログラムコードを生成すること、またその機能

コードハッキング他の人が書いたコードに対して変更や修正を行い、より効率的なコードにするプロセス

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

競技プログラミングにおけるコード生成・ハッキング・修正能力評価の新ベンチマーク：UOJ-Bench

arXiv cs.AI

https://arxiv.org/abs/2606.12864

[2606.12864] Beyond Problem Solving: UOJ-Bench for Evaluating Code Generation, Hacking, and Repair in Competitive Programming https://arxiv.org/abs/2606.12864 used in analysis

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

UOJ-Bench 競技プログラミングコード生成コードハッキングコード修正

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.AI
公開日	2026-06-12

元記事の説明文

arXiv:2606.12864v1 Announce Type: cross Abstract: Despite strong performance in competitive programming, the role of Large Language Models (LLMs) in supporting human learning in the same setting remains largely unexplored. In this work, we introduce UOJ-Bench, a benchmark designed to evaluate not only the problem-solving ability of LLMs, but also their ability to identify errors in human-written code -- a crucial educational activity traditionally supported by running test cases over online judge systems. UOJ-Bench consists of three distinct tasks: code generation, code hacking, and code repair, all constructed from real-world code submissions on the Universal Online Judge (UOJ) and evaluated through UOJ's native judging infrastructure. Our results show that under one-shot evaluation, even the strongest models fail to identify errors in more than 50% of a set of submissions that have been found to be incorrect by UOJ users. While test-time scaling improves success rates to above 90%, the substantial computational costs incurred from model inference limit its practicality for large-scale deployment. Despite these limitations, we find that the best-performing models under test-time scaling can uncover errors in over 5% of full-score submissions across roughly 30 problems, suggesting that frontier LLMs can already provide complementary signals beyond standard judging systems.