タグ
#vLLMの記事一覧
1件の記事があります。
推論最適化
PagedAttentionとは?LLMサービングのKVキャッシュ断片化を減らし高スループット化する仕組みと使い道
PagedAttentionは、LLM推論で肥大化するKVキャッシュをページ単位で管理し、メモリ断片化と重複を抑える技術です。vLLMの中核になったこの仕組みを、課題、実装アイデア、実験結果、開発への応用まで日本語で整理します。
参照論文:Efficient Memory Management for Large Language Model Serving with PagedAttention