← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

非同質データから学習する新たな視覚運動モデルとは？

GLAMモデルが視覚運動ポリシーの学習における非同質データ活用を可能に

元記事タイトル: 多様なデモンストレーションデータから学習する新たな視覚運動ポリシー

arXiv cs.AI 2026年06月23日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

視覚運動ポリシーモデルの学習において、異なるアクション空間を持つ非同質的なデモンストレーションデータを効果的に活用する手法が提案されている。
GLAMモデルは予測によって接地された潜在行動空間を共有することで、異なるソース間でのアクションの転送を可能にする。
この方法により、ラベルなしデータや異なるアクション空間を持つデータからも効果的に学習することが可能となる。

こんな人に関係ある話

機械学習研究者ロボット工学者自動運転技術開発者

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、視覚運動ポリシーモデルの学習において、異なるアクション空間を持つ非同質的なデモンストレーションデータを効果的に活用する手法が提案されています。GLAM（Grounded Latent-Action World Model）と呼ばれるモデルは、予測によって接地された潜在行動空間を共有することで、異なるソース間でのアクションの転送を可能にします。この方法により、ラベルなしデータや異なるアクション空間を持つデータからも効果的に学習することが可能となります。

編集部コメント

この研究は、視覚運動ポリシーの学習において非同質データの活用に新たなアプローチを提示しています。GLAMモデルが示すように、予測に基づく接地された潜在行動空間の共有は、異なるソース間でのアクション転送を可能にする画期的な手法です。

評価ポイント Assessment

良い点

非同質的なデモンストレーションデータからの学習が可能
予測による接地された潜在行動空間の共有
ラベルなしデータでの高いパフォーマンス

業界・社会への影響 Impact

この研究は、視覚運動タスクにおける機械学習モデルの汎化性能と安定性を向上させる可能性があり、ロボット工学や自動運転などの実用的な応用分野で大きな影響を与えることが期待されます。

深堀り Deep Dive

前提知識

視覚運動ポリシーの学習はロボット工学において重要な分野であり、特にimitation learning（模倣学習）は実世界でのロボット行動を効果的に学習するための有効な手法として広く使用されています。しかし、これまでの研究では同質的なデモンストレーションデータが必要であり、これは大量かつ高品質なラベル付きデータの必要性を意味していました。

何が新しいのか

本研究は従来のimitation learningに新たなアプローチを提案し、異なるアクション空間を持つ非同質データを効果的に利用することで、データ不足やラベルなしデータからの学習も可能としました。これにより、GLAMモデルを通じて予測に基づく接地された潜在行動空間の共有が実現され、異なるソース間でのアクション転送が促進されます。

今後見るべき論点

異なる種類のロボットや環境における視覚運動ポリシーの共通化と応用可能性をどのように高めるか
GLAMモデルによる学習効率と精度のさらなる向上に向けた研究動向
実世界での大規模なデータセットへの適用性とその限界

用語解説

視覚運動ポリシーロボットが視覚情報を基に行動を決定するための戦略や規則

模倣学習人間または他のエージェントの行動を観察してその行動を再現することを目的とした機械学習手法

潜在行動空間視覚情報や状況に基づいて抽象化された行動を表現する空間

接地抽象的な概念が具体的な観察データや経験と直接結びつけられるプロセス

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

多様なデモンストレーションデータから学習する新たな視覚運動ポリシー

arXiv cs.AI

https://arxiv.org/abs/2606.21672

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

imitation learning heterogeneous demonstrations grounded latent-action world model

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.AI
公開日	2026-06-23

元記事の説明文

arXiv:2606.21672v1 Announce Type: cross Abstract: Imitation learning has emerged as a powerful paradigm for learning visuomotor policies, but its generalisation and stability are limited by the scale and quality of demonstration data needed. A promising direction is to leverage more abundant but heterogeneous data sources, which differ in action space and often lack action labels altogether. Existing co-training approaches that combine heterogeneous data sources rely on heuristic and hand-engineered alignment techniques. In contrast, we argue that action representations should be grounded in prediction: actions that produce the same effect on the environment should share the same representation, regardless of their sources. To this end, we instantiate this principle by using a grounded latent-action world model (GLAM), a pair of generative models with a shared latent action space across data sources that is grounded by predicting future observations consistently across sources. This latent action space is used to train downstream behavioural cloning (BC) policies which map observations to latent actions and decode them back to robot actions, providing a paradigm for learning from heterogeneous data. Empirically, we demonstrate that GLAM successfully learns an aligned latent action space that facilitates action transfer across data sources with and without action labels. Across five manipulation tasks in simulation and in the real world, GLAM-aligned policies significantly outperform BC baselines and prior latent-action methods, achieving an average of +48% improvement in task success rate with the same data-scarce setting. Videos and code are available at https://viccccciv.github.io/glam/.