タグ
#LLM推論の記事一覧
6件の記事があります。
LayerSkipとは?追加モデルなしでLLM推論を高速化する早期退出と自己Speculative Decodingの仕組み
LayerSkipは、LLMの中間層から早めに出力を作れるよう訓練し、同じモデルだけでspeculative decodingを行う推論最適化技術です。追加ドラフトモデルを持たずに高速化する考え方、仕組み、実務での使い道を整理します。
参照論文:LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding
Grouped-Query Attentionとは?KVキャッシュを減らして推論を速くする仕組みと使い道
Grouped-Query Attentionは、TransformerのAttentionで使うKey/Valueヘッドを共有し、品質を保ちながら推論を軽くしやすくする技術です。GQAの仕組み、既存手法との違い、実務での使い道を日本語で整理します。
参照論文:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
Speculative Decodingとは?LLM推論を品質そのままで高速化する仕組みと使い道
Speculative Decodingは、小さなドラフトモデルで先読みした候補を大きな本命モデルがまとめて検証し、出力分布を変えずにLLM推論を高速化する技術です。仕組み、評価結果、実務での使い道まで日本語で整理します。
参照論文:Fast Inference from Transformers via Speculative Decoding
PagedAttentionとは?LLMサービングのKVキャッシュ断片化を減らし高スループット化する仕組みと使い道
PagedAttentionは、LLM推論で肥大化するKVキャッシュをページ単位で管理し、メモリ断片化と重複を抑える技術です。vLLMの中核になったこの仕組みを、課題、実装アイデア、実験結果、開発への応用まで日本語で整理します。
参照論文:Efficient Memory Management for Large Language Model Serving with PagedAttention
FlashAttentionとは?長文LLMを高速・省メモリにするIO-aware Attention最適化の仕組みと使い道
FlashAttentionは、TransformerのAttentionを近似せずに高速化・省メモリ化するカーネル最適化です。なぜ長文処理で効くのか、HBMとSRAMを意識した仕組み、実験結果、開発への応用ポイントを日本語で整理します。
参照論文:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
Medusaとは?LLM推論を高速化する複数デコードヘッドの仕組みと使い道
Medusaは、LLMに複数の軽量デコードヘッドを追加して複数トークンを並列予測し、推論を高速化する手法です。別のドラフトモデルを使わずに速くする考え方、仕組み、評価結果、実装へのヒントを技術的に解説します。
参照論文:Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads