タグ
#FlashAttentionの記事一覧
1件の記事があります。
推論最適化
FlashAttentionとは?長文LLMを高速・省メモリにするIO-aware Attention最適化の仕組みと使い道
FlashAttentionは、TransformerのAttentionを近似せずに高速化・省メモリ化するカーネル最適化です。なぜ長文処理で効くのか、HBMとSRAMを意識した仕組み、実験結果、開発への応用ポイントを日本語で整理します。
参照論文:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness