タグ
#H2Oの記事一覧
1件の記事があります。
推論最適化
H2Oとは?KVキャッシュを圧縮して長文LLM推論を高速化するHeavy-Hitter保持手法
H2Oは、LLM推論で増え続けるKVキャッシュの中から重要トークンと直近トークンを残すことで、精度を保ちながらメモリ使用量とレイテンシを抑える推論最適化手法です。仕組み、実験結果、実務での使い道を日本語で解説します。
参照論文:H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models