カテゴリ

推論最適化の記事一覧

10件の記事があります。

推論最適化

LongLLMLinguaとは?長文プロンプトを圧縮してLLMの精度・速度・コストを同時に改善する技術

LongLLMLinguaは、質問に関係する情報を残しながら長文プロンプトを段階的に圧縮し、LLMの長文処理を安く速くしつつ精度低下も抑える技術です。RAGや長文QA、要約で効く仕組みと実務での使い道を解説します。

参照論文:LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

推論最適化

Mixture-of-Depthsとは?Transformerの計算量を減らしつつ性能を保つ動的トークンルーティングを解説

Mixture-of-Depthsは、Transformerの各層で重要なトークンだけに重い計算を回し、他のトークンは残差経路でスキップさせる技術です。静的な計算グラフを保ちながら計算配分を動的化する仕組みと、推論高速化やモデル設計への使い道を整理します。

参照論文:Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

推論最適化

Prompt Cacheとは?共通プロンプトを再計算せずLLM推論を高速化する仕組みと使い道を解説

Prompt Cacheは、システムプロンプトやテンプレート、参照文書などの共通部分を prompt module としてキャッシュし、LLM の attention state を再利用する推論最適化技術です。KVキャッシュをリクエスト間へ拡張する考え方と実務での使い道を日本語で整理します。

参照論文:Prompt Cache: Modular Attention Reuse for Low-Latency Inference

推論最適化

BitNetとは?1.58bitでLLMを軽く速くする1-bit事前学習の仕組みと使い道を解説

BitNetは、Transformerの線形層をBitLinearに置き換え、重みを1bitまたは1.58bitで最初から学習する技術です。量子化後処理より低コストで、同規模FP16モデルに近い性能を狙う考え方を日本語で整理します。

参照論文:BitNet: 1-bit Pre-training for Large Language Models

推論最適化

LayerSkipとは?追加モデルなしでLLM推論を高速化する早期退出と自己Speculative Decodingの仕組み

LayerSkipは、LLMの中間層から早めに出力を作れるよう訓練し、同じモデルだけでspeculative decodingを行う推論最適化技術です。追加ドラフトモデルを持たずに高速化する考え方、仕組み、実務での使い道を整理します。

参照論文:LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

推論最適化

Grouped-Query Attentionとは?KVキャッシュを減らして推論を速くする仕組みと使い道

Grouped-Query Attentionは、TransformerのAttentionで使うKey/Valueヘッドを共有し、品質を保ちながら推論を軽くしやすくする技術です。GQAの仕組み、既存手法との違い、実務での使い道を日本語で整理します。

参照論文:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

推論最適化

Speculative Decodingとは?LLM推論を品質そのままで高速化する仕組みと使い道

Speculative Decodingは、小さなドラフトモデルで先読みした候補を大きな本命モデルがまとめて検証し、出力分布を変えずにLLM推論を高速化する技術です。仕組み、評価結果、実務での使い道まで日本語で整理します。

参照論文:Fast Inference from Transformers via Speculative Decoding

推論最適化

PagedAttentionとは?LLMサービングのKVキャッシュ断片化を減らし高スループット化する仕組みと使い道

PagedAttentionは、LLM推論で肥大化するKVキャッシュをページ単位で管理し、メモリ断片化と重複を抑える技術です。vLLMの中核になったこの仕組みを、課題、実装アイデア、実験結果、開発への応用まで日本語で整理します。

参照論文:Efficient Memory Management for Large Language Model Serving with PagedAttention

推論最適化

FlashAttentionとは?長文LLMを高速・省メモリにするIO-aware Attention最適化の仕組みと使い道

FlashAttentionは、TransformerのAttentionを近似せずに高速化・省メモリ化するカーネル最適化です。なぜ長文処理で効くのか、HBMとSRAMを意識した仕組み、実験結果、開発への応用ポイントを日本語で整理します。

参照論文:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

推論最適化

Medusaとは?LLM推論を高速化する複数デコードヘッドの仕組みと使い道

Medusaは、LLMに複数の軽量デコードヘッドを追加して複数トークンを並列予測し、推論を高速化する手法です。別のドラフトモデルを使わずに速くする考え方、仕組み、評価結果、実装へのヒントを技術的に解説します。

参照論文:Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads