← トップへ戻る

プレプリント ·研究論文 ·速報 ·AI要約未精査 ·AIによる読み解き

ローカル環境でもクラウド並みの性能を——Mixture-of-Expertsモデルの新たな推論アプローチ

ローカル環境での大規模Mixture-of-Expertsモデルの推論パフォーマンス向上に向けたCPU-GPUハイブリッド設計が提案

元記事タイトル: ローカル環境でのMixture-of-Expertsモデル推論のクラウドレベルSLO達成に向けたCPU-GPUハイブリッド設計

arXiv cs.AI 2026年06月10日

査読未完了の可能性があります。完成した査読済み論文としてではなく、研究コミュニティ向けの早期共有として読んでください。

RESEARCH 研究論文 / Preprint

Field Note 読む前に確認

3行まとめ

ローカルデプロイメントにおけるMoEモデルの課題とその解決策を提示
SLPとDSLPにより、高い推論スループットを実現
クラウドレベルのQoSをローカルデプロイメントで達成

こんな人に関係ある話

AIエンジニア機械学習研究者データサイエンティスト

信頼度メモ

プレプリント論文（査読前の可能性あり）

記事の読み解き Reading

元記事を材料に、要点、編集視点、良い点と懸念点を読みやすい順に整理しています。

この研究では、ローカル環境で大規模なMixture-of-Experts (MoE) モデルを展開する際の課題と、それらに対する解決策が提案されています。特に、クラウドスケールでのサービス品質に劣る問題点として、容量削減モデルへの依存や30秒以内のTTFT（Time To First Token）達成不可能性などが指摘され、その改善に向けてCPU-GPUハイブリッドシステムを導入しています。このシステムは、SLP (Stream Loading Prefill) とDSLP (Distributed Stream Loading Prefill) を通じて高い推論スループットを実現し、クラウドレベルのQoS（品質保証）をローカルデプロイメントで達成することを目指しています。

編集部コメント

この研究は、大規模なMixture-of-Expertsモデルのローカルデプロイメントにおけるパフォーマンス向上を目指し、CPU-GPUハイブリッドアーキテクチャを用いた革新的な解決策を提示しています。しかし、高コストなGPUハードウェアへの依存度やデータ共有と同期に関する課題も指摘されています。

評価ポイント Assessment

良い点

CPU-GPUハイブリッドアーキテクチャによる効率的な推論スループット向上
SLPとDSLPにより長文の前処理が高速化
クラウドレベルのQoSをローカルデプロイメントで達成

懸念点

高コストなGPUハードウェアへの依存度が高い可能性がある
CPUとGPU間でのデータ共有や同期に関する課題

業界・社会への影響 Impact

この研究は、大規模なMoEモデルのローカルデプロイメントにおけるパフォーマンス向上を可能にし、クラウド環境で達成される品質レベルをローカルでも実現することを目指しています。これは、データプライバシーやネットワーク遅延が問題となる場面でのAIモデルの利用を促進する可能性があります。

深堀り Deep Dive

前提知識

ローカル環境での大規模Mixture-of-Experts (MoE) モデルの推論には課題があり、特にクラウドレベルのサービス品質を達成することが難しくなっています。これらのモデルは大量の計算リソースとメモリを必要とするため、GPUやハイパフォーマンスCPUの利用が求められます。

何が新しいのか

本研究では、ローカル環境でもクラウドレベルの品質保証（QoS）を達成するために、CPU-GPUハイブリッドシステムを使用した新しいアプローチが提案されています。これにより、従来よりも高い推論スループットと低いTTFT（Time To First Token）が実現可能となります。

今後見るべき論点

クラウド環境でのCPU-GPUハイブリッドシステムの導入状況
更なる省資源化技術の開発動向
ローカルデプロイメントにおけるQoS向上の可能性

用語解説

Mixture-of-Experts (MoE) 複数の「エキスパート」ネットワークから構成され、効率的な推論を可能にする機械学習モデル

Time To First Token (TTFT) ユーザーが入力した最初のトークンに対する応答が返るまでの時間

Stream Loading Prefill (SLP) 前処理データを効率的に読み込むための技術

Distributed Stream Loading Prefill (DSLP) 複数のコンピュータで分散してスリームローディングを行う技術

参照元 Sources

元記事と、深堀りで参照した情報源です。コミュニティ投稿やプレプリントでは、ここから根拠を確認できます。

ローカル環境でのMixture-of-Expertsモデル推論のクラウドレベルSLO達成に向けたCPU-GPUハイブリッド設計

arXiv cs.AI

https://arxiv.org/abs/2606.10493

Achieving Cloud-Grade SLOs for Local Mixture-of-Experts Inference through CPU–GPU Hybrid DesignAccepted to the 20th USENIX Symposium on Operating Systems Design and Implementation (OSDI ’26). The official version will appear in the OSDI ’26 proceedings published by USENIX. https://arxiv.org/html/2606.10493v1 used in analysis

[2606.10493] Achieving Cloud-Grade SLOs for Local Mixture-of-Experts Inference through CPU-GPU Hybrid Design https://arxiv.org/abs/2606.10493 used in analysis

この記事の見取り図

読む前に確認
記事の読み解き
深堀り
参照元
AI要約について
関連記事

キーワード

Mixture-of-Experts SLP DSLP CPU-GPU Hybrid Cloud-grade SLOs

AI要約について

本記事の要約・分類・読み解きにはAIを使用しています。内容確認に努めていますが、誤訳・解釈違い・元記事更新の反映漏れを含む可能性があります。重要な判断を行う場合は、必ず元記事もご確認ください。

速報について — 速報は追加調査や本文抽出の結果で内容が更新される場合があります。初期要約には誤りや不足が含まれる可能性があります。

記事データ

Source	プレプリント
Category	研究論文
Status	速報
出典	arXiv cs.AI
公開日	2026-06-10

元記事の説明文

arXiv:2606.10493v1 Announce Type: cross Abstract: Local deployment of large Mixture-of-Experts (MoE) models falls short of the service quality achieved in cloud-scale environments, even under low-concurrency workloads. We identify four key gaps in local MoE inference: reliance on capacity-reduced models (quantized, distilled, rerouted), inability to meet 30-second TTFT for long prefills (more than 12K), sub-baseline decode throughput (under 20 tokens/s), and poor concurrency under mixed prefill-decode and batched decode workloads. We present a CPU-GPU hybrid system that achieves cloud-level SLOs on dual-socket commodity CPUs and consumer GPUs by (1) stream-loading prefill (SLP), boosting prefill throughput to 1,200 tokens/s and enabling 32K prompts within 30 seconds; (2) distributed SLP (DSLP) with SmallEP expert parallelism, reaching 1,800 tokens/s and 45K prompts in 30 seconds on two RTX 5090s; (3) intra-node prefill-decode disaggregation with zero-copy shared weights and a dual-batch attention-MoE overlap scheme, sustaining concurrency with under 15 percent latency increase and 50 percent throughput gains; (4) an AVX-512-optimized FP8 GEMV kernel, enabling native CPU FP8 inference while delivering 4-5x lower CPU latency; and (5) fine-grained CPU parallelism that attains 28 tokens/s on INT4 DeepSeek-V3 and 21.5 tokens/s on intact FP8 V3. Evaluations show our system delivers cloud-level QoS for flagship MoE models on consumer CPU-GPU platforms, reshaping local deployment with intact, original-precision inference and enabling high-quality, cost-effective access without datacenter infrastructure.