タグ
#Prompt Cacheの記事一覧
1件の記事があります。
推論最適化
Prompt Cacheとは?共通プロンプトを再計算せずLLM推論を高速化する仕組みと使い道を解説
Prompt Cacheは、システムプロンプトやテンプレート、参照文書などの共通部分を prompt module としてキャッシュし、LLM の attention state を再利用する推論最適化技術です。KVキャッシュをリクエスト間へ拡張する考え方と実務での使い道を日本語で整理します。
参照論文:Prompt Cache: Modular Attention Reuse for Low-Latency Inference