← トップへ戻る

プレプリント ·研究論文 ·完成記事 ·AIによる読み解き

視覚状態空間モデルのパフォーマンス向上に向けた新たなアプローチ

STORMは視覚状態空間モデルの効率性と忠実度を向上させるための新しいフレームワーク

元記事タイトル: 空間認識型トークン削減フレームワークSTORM:効率的かつ忠実な視覚状態空間モデルへの道

arXiv cs.AI 2026年06月19日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

STORMは、視覚状態空間モデルにおけるトークン削減問題に対処する
VMambaに対して63.3%の上位1精度向上を達成
既存手法よりも優れた性能を示す

こんな人に関係ある話

機械学習エンジニアビジョンタスク研究者 AI開発者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

Mambaは長大な視覚シーケンスを効率的にモデリングしますが、構造強化版のMambaに対してトークン削減手法を適用するとパフォーマンスが著しく低下するという問題があります。この研究では、空間認識型トークン削減フレームワークSTORMを提案し、既存の削減方法の空間無視性による二維構造の破壊を解消します。STORMは、グリッドトポロジーと近傍の一貫性を保つために局所的な制約を導入することで、圧縮過程全体で構造的整合性を維持します。実験結果では、VMambaに対して63.3%の上位1精度向上を達成し、既存手法よりも優れた性能を示しています。

編集部コメント

この研究は視覚状態空間モデルの効率性と忠実度のバランス改善に焦点を当てています。STORMフレームワークは、既存の削減方法の欠点を克服し、VMambaのようなモデルに対して顕著な性能向上を達成しています。今後のビジョンタスクにおける応用可能性が期待されます。

評価ポイント Assessment

良い点

STORMは空間認識型トークン削減フレームワークとして提案されている
STORMは既存の削減方法が引き起こすパフォーマンス低下問題に対処する
VMambaに対して63.3%の上位1精度向上を達成

業界・社会への影響 Impact

この研究は、視覚状態空間モデルにおける効率性と忠実度の両立に新たなアプローチを提示し、大規模なビジュアルデータセットに対する応用可能性を高めます。また、STORMフレームワークが他のビジョンタスクにも適用可能であることを示唆しています。

深堀り Deep Dive

前提知識

Mambaモデルは長い視覚シーケンスの効率的なモデリングにおいて優れた性能を発揮します。ただし、構造強化版のMambaに対してトークン削減手法を適用するとパフォーマンスが低下するという問題があります。これは、既存の削減方法が空間情報を無視し、2次元構造を破壊してしまうことが原因であると考えられています。

何が新しいのか

STORMは、空間認識型トークン削減フレームワークとして提案され、既存の削減方法における空間無視性による問題を解決します。これにより、圧縮過程全体で構造的整合性を維持し、VMambaに対して63.3%の上位1精度向上を達成しています。

今後見るべき論点

STORMが他の視覚状態空間モデルにどのように適用されるか
STORMが機械学習分野全体でどの程度の影響を与えるか
新たなトークン削減手法が開発され、STORMとどう比較・競合するか

用語解説

空間認識型トークン削減フレームワーク 2次元構造を保ちつつ効率的に視覚シーケンスのモデリングを行うための新しい手法

Mambaモデル長い視覚シーケンスを効率的に処理する深層学習モデル

VMamba 構造強化版のMambaモデルで、STORMが適用された際の性能改善を示す

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

空間認識型トークン削減フレームワークSTORM:効率的かつ忠実な視覚状態空間モデルへの道

arXiv cs.AI

https://arxiv.org/abs/2606.19932

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

Mamba STORM 視覚状態空間モデルトークン削減フレームワーク

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

記事データ

Source	プレプリント
Category	研究論文
Status	完成記事
出典	arXiv cs.AI
公開日	2026-06-19

元記事の説明文

arXiv:2606.19932v1 Announce Type: cross Abstract: Mamba demonstrates strong efficiency in modeling long visual sequences. However, when token reduction is applied to structurally enhanced Mamba variants, these models exhibit a severe performance collapse. We attribute this degradation to the spatially agnostic nature of existing reduction methods, which violate the two-dimensional structural premise required by the selective scanning mechanism. In this work, we propose STORM, a spatial-aware token reduction framework designed to maintain structural integrity throughout the compression process. STORM reformulates reduction into a structured operation on spatial units, enforcing localized constraints to maintain both grid topology and neighborhood coherence. As a plug-and-play module, STORM equips existing reduction pipelines with explicit spatial awareness without any training. Empirical results demonstrate that STORM achieves state-of-the-art pruning accuracy across diverse vision Mamba backbones under training-free settings. Notably, STORM delivers a substantial accuracy recovery on VMamba, outperforming prior methods by up to 63.3\% in top-1 accuracy. Meanwhile, STORM incurs only a 1.0\% accuracy drop on PlainMamba, achieving performance comparable to ViT.