← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

一様拡散モデル、新たな可能性を示すSumiとは何か？

一様拡散言語モデルSumiがスクラッチから学習され、大規模なパラメータとトークン予算を持つUDLMの可能性を示す

元記事タイトル: Sumi: 大規模パラメータとトークン予算を持つオープンな一様拡散言語モデル

arXiv cs.CL 2026年06月18日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

Sumiは7Bパラメータの大規模UDLMで、1.5Tトークンからスクラッチで学習された
知識・推論・コーディングベンチマークでは既存の自動回帰モデルと互角の性能を発揮
コミュニティに完全な訓練レシピと公開データセットを提供

こんな人に関係ある話

機械学習研究者自然言語処理エンジニア AI開発者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

本研究では、一様拡散言語モデル（UDLM）の一つであるSumiが紹介されています。Sumiは7Bパラメータの大規模UDLMで、1.5Tトークンからスクラッチで学習されました。知識、推論、コーディングなどのベンチマークでは自動回帰モデルと互角ですが、常識的なタスクでは劣っています。この研究は一様拡散言語モデルの可能性を示し、コミュニティに公開データセットや訓練手法を提供します。

編集部コメント

一様拡散言語モデルはまだ研究段階ですが、Sumiの公開によりコミュニティでの実装と改良が加速すると期待されます。特に大規模なパラメータとトークン予算を持つUDLMの性能評価や応用範囲の探索に注目です。

評価ポイント Assessment

良い点

Sumiは大規模パラメータとトークン予算を持つUDLMとして初めてスクラッチから学習された
知識・推論・コーディングベンチマークで既存の自動回帰モデルと互角の性能を発揮
コミュニティに完全な訓練レシピと公開データセットを提供

懸念点

常識的なタスクでは他のモデルに劣る結果が出ている
教育重視のデータミックスがパフォーマンスに影響を与える可能性がある

業界・社会への影響 Impact

この研究は、一様拡散言語モデルの性能と応用範囲を理解するための重要な進歩を示しています。大規模なUDLMの開発と評価が可能になり、自動回帰モデルとの比較分析や新たな学習手法の探索に貢献します。

深堀り Deep Dive

前提知識

一様拡散言語モデル（UDLM）は、自動回帰モデルやマスク付き拡散モデルに代わる有望な代替技術として注目されています。UDLMは生成過程の柔軟性が高いとされる一方で、大規模パラメータとトークン予算を持つ完全にスクラッチから学習されたモデルが存在していません。

何が新しいのか

Sumiは70億パラメータを有するUDLMであり、1.5兆以上のトークンからスクラッチで学習されました。知識、推論、コーディングなどのタスクでは自動回帰モデルと互角の性能を示す一方で、常識的なタスクでは劣っていることが特徴です。

今後見るべき論点

SumiのようなUDLMが大規模なパラメータとトークン予算を持つことで、コミュニティでの研究や応用開発がどのように進展するか
教育重視のデータセットがモデル性能にどのような影響を与えるか
UDLMは自動回帰モデルを超える性能を達成できるのか

用語解説

一様拡散言語モデル（UDLM）トークンが生成過程のどの段階でも更新可能になるように設計された言語モデル

自動回帰モデル前後の文脈を考慮に入れて逐次的に予測を行う言語モデル

マスク付き拡散モデル特定の部分をマスキングして生成する手法を持つモデル

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

Sumi: 大規模パラメータとトークン予算を持つオープンな一様拡散言語モデル

arXiv cs.CL

https://arxiv.org/abs/2606.19005

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

uniform diffusion language model UDLM Sumi diffusion models autoregressive models

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.CL
公開日	2026-06-18

元記事の説明文

arXiv:2606.19005v1 Announce Type: new Abstract: Diffusion models have become a promising alternative to autoregressive models. Among these, uniform diffusion language models (UDLMs) permit any token to be updated at any step, in principle enabling more flexible generation. However, no UDLM has yet been pretrained from scratch at both large parameter scale and large token budget. Both autoregressive modeling and masked diffusion modeling already have capable models at scale that the community can study and build on; uniform diffusion has none. A scratch-pretrained UDLM at scale would provide a clean reference point for studying scaling behavior, generation dynamics, controllability, and trade-offs against established autoregressive and masked diffusion models. To this end, we introduce Sumi ("ink" in Japanese), a fully open 7B uniform diffusion language model pretrained from scratch on 1.5T tokens. Sumi performs competitively with autoregressive models trained at comparable token budgets on knowledge, reasoning, and coding benchmarks, while under-performing on commonsense benchmarks, where our education-heavy data mixture is a likely contributor. We release our model weights, checkpoints, and full training recipe, including a complete specification of the data mixture over publicly available corpora. We hope this release enables the community to study native uniform diffusion at scale and catalyzes work on its as-yet poorly understood aspects.