タグ

#Attention最適化の記事一覧

1件の記事があります。

推論最適化

FlashAttentionとは?長文LLMを高速・省メモリにするIO-aware Attention最適化の仕組みと使い道

FlashAttentionは、TransformerのAttentionを近似せずに高速化・省メモリ化するカーネル最適化です。なぜ長文処理で効くのか、HBMとSRAMを意識した仕組み、実験結果、開発への応用ポイントを日本語で整理します。

参照論文:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness