タグ

#LLM推論最適化の記事一覧

1件の記事があります。

H2Oとは？KVキャッシュを圧縮して長文LLM推論を高速化するHeavy-Hitter保持手法

H2Oは、LLM推論で増え続けるKVキャッシュの中から重要トークンと直近トークンを残すことで、精度を保ちながらメモリ使用量とレイテンシを抑える推論最適化手法です。仕組み、実験結果、実務での使い道を日本語で解説します。

参照論文：H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models