← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

マルチモーダルLLMの未来予測能力、どこまで進んだのか？

FutureOmniは、マルチモーダルLLMの未来予測能力を評価する初めてのベンチマークです。

元記事タイトル: マルチモーダルLLMによる未来予測能力評価：FutureOmni

arXiv cs.CL 2026年06月18日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

FutureOmniは視覚と音声情報から未来を予測するモデルの性能を評価します
Gemini 3 Flashが現在最高精度を達成しています
新たなトレーニング戦略が提案されています

こんな人に関係ある話

AI研究者マルチモーダルLLM開発者未来予測モデルのユーザ

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

FutureOmniは、視覚と音声情報を用いた未来予測能力の評価に特化したベンチマークです。現在のモデルが特に話題豊かなシナリオで予測精度を欠いていることを示し、7Kサンプルの指示調整データセットとオムニモーダル未来予測（OFF）トレーニング戦略を提案しています。

編集部コメント

FutureOmniは、マルチモーダルLLMが持つ潜在的な能力を評価し、その限界を明らかにすることで、今後の研究開発における重要な指針となるでしょう。特に音声情報の豊かさが予測精度に影響を与えるという新たな観察結果は、将来的なモデル設計において考慮すべき重要な要素です。

評価ポイント Assessment

良い点

視覚・音声情報から未来を予測する能力が評価される初めてのベンチマーク
7Kサンプルの指示調整データセットと新たなトレーニング戦略が提案されている
Gemini 3 Flashが最も高い精度（64.8%）を達成

懸念点

現在のシステムは音声豊かなシナリオでの予測性能に課題がある
新たなトレーニング戦略の効果性についてまだ完全な検証が行われていない

業界・社会への影響 Impact

FutureOmniは、マルチモーダルLLMの未来予測能力を向上させるための研究開発に重要なインパクトを与え、音声と視覚情報を統合して未来イベントを予測するモデルの進歩を促す可能性があります。

深堀り Deep Dive

前提知識

マルチモーダル大規模言語モデル（MLLM）は視覚と音声情報の統合による多様なタスクに対応可能だが、特に未来予測については研究が不足している。これまでの評価システムでは過去や現在に関する理解に重点を置いており、未来のイベントを予測する能力について詳しく調査されていない。

何が新しいのか

FutureOmniは、視覚と音声情報を組み合わせたオムニモーダルな環境での将来の出来事を予測するために設計された初めてのベンチマークです。また、7Kサンプルの指示調整データセットとオムニモーダル未来予測（OFF）トレーニング戦略を提案し、既存モデルが音声重視シナリオでの低精度問題を改善します。

今後見るべき論点

今後、視覚と音声情報の統合により、マルチモーダルLLMの未来予測能力はどのように向上するか
FutureOmniベンチマークが他の研究者や開発者の進歩にどのような影響を与えるか
OFF戦略が実装されると、モデルのパフォーマンスがどの程度改善されるか

用語解説

マルチモーダル大規模言語モデル（MLLM）視覚や音声などの複数種類の入力データを処理し、それらの情報を統合して多様なタスクに対応できる高度に汎用的なAIシステム

オムニモーダル未来予測（OFF）視覚と音声情報から得られたデータを活用し、将来の出来事をより正確に予測するためのトレーニング戦略

指示調整データセットモデルが特定のタスクに対して効果的に学習できるように、細かく調整された訓練データセット

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

マルチモーダルLLMによる未来予測能力評価：FutureOmni

arXiv cs.CL

https://arxiv.org/abs/2601.13836

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

FutureOmni マルチモーダルLLM オムニモーダル未来予測 OFF

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.CL
公開日	2026-06-18

元記事の説明文

arXiv:2601.13836v2 Announce Type: replace Abstract: Although Multimodal Large Language Models (MLLMs) demonstrate strong omni-modal perception, their ability to forecast future events from audio-visual cues remains largely unexplored, as existing benchmarks focus mainly on retrospective understanding. To bridge this gap, we introduce FutureOmni, the first benchmark designed to evaluate omni-modal future forecasting from audio-visual environments. The evaluated models are required to perform cross-modal causal and temporal reasoning, as well as effectively leverage internal knowledge to predict future events. FutureOmni is constructed via a scalable LLM-assisted, human-in-the-loop pipeline and contains 919 videos and 1,034 multiple-choice QA pairs across 8 primary domains. Evaluations on 13 omni-modal and 7 video-only models show that current systems struggle with audio-visual future prediction, particularly in speech-heavy scenarios, with the best accuracy of 64.8% achieved by Gemini 3 Flash. To mitigate this limitation, we curate a 7K-sample instruction-tuning dataset and propose an Omni-Modal Future Forecasting (OFF) training strategy. Evaluations on FutureOmni and popular audio-visual and video-only benchmarks demonstrate that OFF enhances future forecasting and generalization. We publicly release all code (https://github.com/OpenMOSS/FutureOmni) and datasets (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).