タグ
#KVキャッシュの記事一覧
2件の記事があります。
推論最適化
Prompt Cacheとは?共通プロンプトを再計算せずLLM推論を高速化する仕組みと使い道を解説
Prompt Cacheは、システムプロンプトやテンプレート、参照文書などの共通部分を prompt module としてキャッシュし、LLM の attention state を再利用する推論最適化技術です。KVキャッシュをリクエスト間へ拡張する考え方と実務での使い道を日本語で整理します。
参照論文:Prompt Cache: Modular Attention Reuse for Low-Latency Inference
推論最適化
Grouped-Query Attentionとは?KVキャッシュを減らして推論を速くする仕組みと使い道
Grouped-Query Attentionは、TransformerのAttentionで使うKey/Valueヘッドを共有し、品質を保ちながら推論を軽くしやすくする技術です。GQAの仕組み、既存手法との違い、実務での使い道を日本語で整理します。
参照論文:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints