タグ
#KVキャッシュの記事一覧
1件の記事があります。
推論最適化
Grouped-Query Attentionとは?KVキャッシュを減らして推論を速くする仕組みと使い道
Grouped-Query Attentionは、TransformerのAttentionで使うKey/Valueヘッドを共有し、品質を保ちながら推論を軽くしやすくする技術です。GQAの仕組み、既存手法との違い、実務での使い道を日本語で整理します。
参照論文:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints