タグ

#KVキャッシュの記事一覧

1件の記事があります。

推論最適化

Grouped-Query Attentionとは?KVキャッシュを減らして推論を速くする仕組みと使い道

Grouped-Query Attentionは、TransformerのAttentionで使うKey/Valueヘッドを共有し、品質を保ちながら推論を軽くしやすくする技術です。GQAの仕組み、既存手法との違い、実務での使い道を日本語で整理します。

参照論文:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints