タグ

#KVキャッシュの記事一覧

7件の記事があります。

CacheGenとは？KVキャッシュを圧縮して長文LLMを速くする技術

CacheGenは、長文入力で再利用するKVキャッシュを圧縮・分割配信して、LLMの文脈読み込み遅延を減らす技術です。仕組み、実験結果、RAGや社内AIへの使い道を日本語で解説します。

参照論文：CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving

SnapKVは、長文入力で肥大化するKVキャッシュを、観測ウィンドウから重要トークンを選んで圧縮する推論最適化技術です。仕組み、実験結果、RAGや長文エージェントへの使い道を日本語で解説します。

参照論文：SnapKV: LLM Knows What You are Looking for Before Generation

vAttentionは、KVキャッシュを仮想メモリ上では連続のまま保ちつつ、物理メモリだけを必要時に割り当てるLLM推論基盤技術です。PagedAttentionとの違い、仕組み、実験結果、実装や事業へのヒントを日本語で解説します。

参照論文：vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

KIVIは、LLM推論時のボトルネックになりやすいKVキャッシュを、Keyはper-channel、Valueはper-tokenで非対称に2bit量子化する技術です。仕組み、実験結果、推論基盤への使い道を日本語で解説します。

参照論文：KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache

H2Oは、LLM推論で増え続けるKVキャッシュの中から重要トークンと直近トークンを残すことで、精度を保ちながらメモリ使用量とレイテンシを抑える推論最適化手法です。仕組み、実験結果、実務での使い道を日本語で解説します。

参照論文：H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

Prompt Cacheは、システムプロンプトやテンプレート、参照文書などの共通部分を prompt module としてキャッシュし、LLM の attention state を再利用する推論最適化技術です。KVキャッシュをリクエスト間へ拡張する考え方と実務での使い道を日本語で整理します。

参照論文：Prompt Cache: Modular Attention Reuse for Low-Latency Inference

Grouped-Query Attentionは、TransformerのAttentionで使うKey/Valueヘッドを共有し、品質を保ちながら推論を軽くしやすくする技術です。GQAの仕組み、既存手法との違い、実務での使い道を日本語で整理します。

参照論文：GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints