大規模言語モデルの推論効率を向上させる新たなKVキャッシュ圧縮戦略とは?
ポリKV: 多様な層別KVキャッシュ圧縮戦略
査読前の可能性がある研究情報
PolyKVは、大規模言語モデルの推論効率を向上させる新たなKVキャッシュ圧縮フレームワーク
速報・AI要約未精査
arXiv cs.AI
毎日更新・AIニュース考察
ポリKV: 多様な層別KVキャッシュ圧縮戦略
査読前の可能性がある研究情報
PolyKVは、大規模言語モデルの推論効率を向上させる新たなKVキャッシュ圧縮フレームワーク
速報・AI要約未精査