← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

柔軟物体折りたたみの課題に挑む——DeMaVLAが目指す汎用性とは

家庭ロボット向けの柔軟な物体折りたたみに対応する汎用的なVLAモデルDeMaVLAが提案されました。

元記事タイトル: DeMaVLA: 柔軟な物体折りたたみに対応する汎用的なビジョン-言語-行動モデル

arXiv cs.AI 2026年06月17日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

DeMaVLAは、家庭ロボットが多様な状況で柔軟な物体を扱うためのビジョン-言語-行動(VLA)基礎モデルです。
このモデルは流動マッチングを使用して連続的な行動生成を行い、トランスフォーマー層の間引きにより効率化が図られています。
DeMaVLAは、異なるタスク間での干渉を避けるための多タスク学習の課題に対処します。

こんな人に関係ある話

ロボット工学者 AI研究者家庭用ロボット開発者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究は、家庭ロボットが多様な状況で柔軟な物体を扱うためのビジョン-言語-行動(VLA)基礎モデルであるDeMaVLAを開発した。DeMaVLAは、異なるカテゴリや形状の衣服アイテムから始まる折りたたみタスクに対応する汎用性を持つ。このモデルは、VLMバックボーンとアクションエキスパートを組み合わせ、流動マッチングを使用して連続的な行動生成を行う。また、効率化のためにアクションエキスパートの構築ではトランスフォーマー層の間引きを行い、トレーニングや推論コストを削減している。

編集部コメント

この研究では、家庭ロボットが多様な環境で柔軟な物体を扱うための新しいアプローチが提案されています。DeMaVLAは、既存のVLAシステムにおける課題を解決し、より汎用的な折りたたみスキルを獲得するための重要な一歩と言えます。

評価ポイント Assessment

良い点

柔軟な物体折りたたみに対応する汎用性を持つVLAモデル
流動マッチングを使用した連続的な行動生成
トランスフォーマー層の間引きによる効率化

懸念点

異なるタスク間での干渉を避けるための多タスク学習の課題
実際のロボット環境での安定性とパフォーマンスの向上

業界・社会への影響 Impact

この研究は、家庭用ロボットが複雑な日常的なタスクに対応する能力を高めることで、自動化された生活支援技術の進歩に貢献します。また、柔軟性と汎用性を持つVLAモデルの開発は、将来的には他の分野でも適用可能な可能性があります。

深堀り Deep Dive

前提知識

家庭向けロボットが人間の生活空間で効果的に動作するには、多様な物体や状況に対応できるビジョン-言語-行動(VLA)モデルが必要です。特に柔軟な物体（例えば衣服）を扱う際は、形状や材質が異なるため、ロボットはそれらを適切に折りたたむための汎用的なスキルを習得する必要があります。

何が新しいのか

DeMaVLAは、柔軟な物体の折りたたみタスクに対応する汎用的なビジョン-言語-行動(VLA)モデルです。既存のシステムでは、異なるカテゴリのオブジェクト毎に個別の動作方針を学習することが一般的でしたが、DeMaVLAは流動マッチングを使用して連続的な動作生成を行うことで、複数のタスク間での干渉を防ぎます。

今後見るべき論点

DeMaVLAが実世界でどれだけ多くの異なる柔軟なオブジェクトに対応できるか
トランスフォーマー層の間引きがコスト削減だけでなく、モデルのパフォーマンスにどのような影響を与えるか
人間とロボットの協調作業によるデータ収集と学習がどのように進化するか

用語解説

ビジョン-言語-行動モデル(Vision-Language-Action Model) 物体を視覚的に認識し、自然言語による指示に基づいて動作を行うためのロボット制御モデル

流動マッチング(Flow Matching) 時間連続的な画像間での移動ベクトルの対応関係を利用して物体の変形を推定する技術

トランスフォーマー層機械学習モデルにおける一連の処理ブロックで、特に注意力メカニズムを含む

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

DeMaVLA: 柔軟な物体折りたたみに対応する汎用的なビジョン-言語-行動モデル

arXiv cs.AI

https://arxiv.org/abs/2605.31286

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

Vision-Language-Action Deformable Manipulation Flow Matching Transformer Pruning

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.AI
公開日	2026-06-17

元記事の説明文

arXiv:2605.31286v2 Announce Type: replace-cross Abstract: Real-world household robots require Vision-Language-Action (VLA) foundation models that can acquire reusable manipulation skills across diverse objects, task conditions, and household environments. Deformable-object folding is a representative challenge, requiring robots to handle clothing items from random initial states across varying categories, geometries, materials, and scenes. However, existing VLA systems commonly train separate policies for different object categories, while naively mixed multi-task training often suffers from task interference and degraded performance. To move beyond category-specific folding policies, we introduce DeMaVLA, a VLA foundation model for generalizable Deformable Manipulation. DeMaVLA adopts a VLM backbone with an action expert and formulates continuous action generation using flow matching. To improve efficiency, the action expert is constructed by pruning every other transformer layer while preserving layer-wise alignment with the VLM backbone, reducing training and inference cost. DeMaVLA is first pre-trained on approximately 5,000 hours of selected real-world dual-arm demonstrations to acquire general manipulation priors. It is then post-trained on mixed folding data that aggregates self-collected demonstrations and corrective trajectories from real-robot failures across multiple folding tasks through a human-in-the-loop Data Aggregation~(DAgger) pipeline. Experiments show that DeMaVLA achieves competitive performance on RoboTwin 2.0 and strong real-world results on our household folding benchmark. These results highlight the value of scalable real-world data, efficient action generation, and corrective learning for general-purpose VLA policies in deformable-object manipulation.