カテゴリ

推論最適化の記事一覧

26件の記事があります。

推論最適化

Mixture-of-Recursionsとは？共有レイヤーと動的再帰でLLMの計算量を減らす仕組み

Mixture-of-Recursionsは、LLMの重み共有とトークンごとの可変計算を組み合わせて、少ないパラメータと計算資源で高い性能を狙う技術です。再帰的に同じブロックを使い回しつつ、難しいトークンだけ深く処理する仕組み、実験結果、開発への活かし方を日本語で解説します。

参照論文：Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

推論最適化

LazyLLMとは？長文LLMの入力を動的に間引いて初回応答を速くする技術

LazyLLMは、長い入力の全トークンを最初から最後まで一律に処理せず、次の出力に効くトークンだけを段階的に残す推論最適化技術です。仕組み、実験結果、RAGや社内AIへの使い道を日本語で解説します。

参照論文：LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

推論最適化

CacheGenとは？KVキャッシュを圧縮して長文LLMを速くする技術

CacheGenは、長文入力で再利用するKVキャッシュを圧縮・分割配信して、LLMの文脈読み込み遅延を減らす技術です。仕組み、実験結果、RAGや社内AIへの使い道を日本語で解説します。

参照論文：CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving

推論最適化

SnapKVとは？長文LLMのKVキャッシュを圧縮して高速化する技術

SnapKVは、長文入力で肥大化するKVキャッシュを、観測ウィンドウから重要トークンを選んで圧縮する推論最適化技術です。仕組み、実験結果、RAGや長文エージェントへの使い道を日本語で解説します。

参照論文：SnapKV: LLM Knows What You are Looking for Before Generation

推論最適化

AWQとは？LLMを4bit量子化して軽く速く動かす技術

AWQは、活性値を見て重要な重みチャネルを保護しながらLLMを4bit量子化する技術です。仕組み、実験結果、推論最適化やエッジ配備への使い道を日本語で解説します。

参照論文：AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

推論最適化

SmoothQuantとは？LLMをW8A8量子化して推論を高速化する技術

SmoothQuantは、活性値の外れ値を重み側へオフラインで移し、LLMのW8A8量子化を実用化する技術です。仕組み、実験結果、推論最適化への使い道を日本語で解説します。

参照論文：SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

推論最適化

Activation Beaconとは？長文コンテキストを圧縮してLLMの文脈長と推論効率を伸ばす技術

Activation Beaconは、長い入力を beacon token のKV表現に圧縮し、LLMの短いコンテキスト窓でもより長い文脈を扱えるようにする手法です。仕組み、実験結果、RAGや長文エージェントへの使い道を日本語で解説します。

参照論文：Long Context Compression with Activation Beacon

推論最適化

Contrastive Decodingとは？追加学習なしでLLMの出力品質を改善する推論手法

Contrastive Decodingは、大きな言語モデルと小さな言語モデルの確率差を使って、繰り返しや話題逸脱を抑える推論手法です。学習不要で導入できる仕組み、実験結果、LLMアプリへの使い道を日本語で解説します。

参照論文：Contrastive Decoding: Open-ended Text Generation as Optimization

推論最適化

FlexGenとは？単一GPUで大規模LLMを高スループット実行するオフロード推論技術

FlexGenは、GPU・CPU・SSDをまたいで重みやKVキャッシュを配置し、単一GPUでも大規模LLMを高スループットで動かす推論最適化技術です。オフロード方針探索、4bit圧縮、実験結果、実務での使い道を日本語で解説します。

参照論文：FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU

推論最適化

StreamingLLMとは？長時間会話を止めずに続けるAttention Sinkベースの無限長推論技術

StreamingLLMは、LLMの冒頭トークンをAttention Sinkとして残しながら最近のトークンだけを保持し、長時間会話や連続入力を安定して処理する推論最適化技術です。仕組み、課題、実験結果、エージェントやチャット開発への使い道を日本語で解説します。

参照論文：Efficient Streaming Language Models with Attention Sinks

推論最適化

MInferenceとは？長文LLMのprefillを最大10倍高速化する動的疎Attention技術

MInferenceは、長文LLMのprefillで支配的になるAttention計算を、ヘッドごとの動的疎パターンで削減する推論最適化技術です。3種類の疎パターン、仕組み、実験結果、RAGやエージェント開発への応用ポイントを日本語で解説します。

参照論文：MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention

推論最適化

vAttentionとは？PagedAttentionなしでLLMサービングのKVキャッシュ断片化を防ぐ技術

vAttentionは、KVキャッシュを仮想メモリ上では連続のまま保ちつつ、物理メモリだけを必要時に割り当てるLLM推論基盤技術です。PagedAttentionとの違い、仕組み、実験結果、実装や事業へのヒントを日本語で解説します。

参照論文：vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

推論最適化

KIVIとは？KVキャッシュを2bit量子化して長文推論を軽くする技術

KIVIは、LLM推論時のボトルネックになりやすいKVキャッシュを、Keyはper-channel、Valueはper-tokenで非対称に2bit量子化する技術です。仕組み、実験結果、推論基盤への使い道を日本語で解説します。

参照論文：KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache

推論最適化

H2Oとは？KVキャッシュを圧縮して長文LLM推論を高速化するHeavy-Hitter保持手法

H2Oは、LLM推論で増え続けるKVキャッシュの中から重要トークンと直近トークンを残すことで、精度を保ちながらメモリ使用量とレイテンシを抑える推論最適化手法です。仕組み、実験結果、実務での使い道を日本語で解説します。

参照論文：H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

推論最適化

Self-Consistencyとは？複数の推論経路から最終回答を安定化するLLM推論手法

Self-Consistencyは、LLMに複数の推論経路を生成させ、最も一貫した答えを採用する推論時手法です。Chain-of-Thoughtの弱点、仕組み、実験結果、実務での使い道を日本語で解説します。

参照論文：Self-Consistency Improves Chain of Thought Reasoning in Language Models

推論最適化

Token Mergingとは？Vision Transformerを高速化するトークン統合の仕組みと使い道

Token Merging（ToMe）は、Vision Transformerの似たトークンを段階的に統合し、再学習なしでも推論を大きく高速化できる手法です。なぜトークン削減が効くのか、どのように精度低下を抑えるのか、画像・動画・音声や生成AIへどう応用できるのかを解説します。

参照論文：Token Merging: Your ViT But Faster

推論最適化

LongLLMLinguaとは？長文プロンプトを圧縮してLLMの精度・速度・コストを同時に改善する技術

LongLLMLinguaは、質問に関係する情報を残しながら長文プロンプトを段階的に圧縮し、LLMの長文処理を安く速くしつつ精度低下も抑える技術です。RAGや長文QA、要約で効く仕組みと実務での使い道を解説します。

参照論文：LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

推論最適化

Mixture-of-Depthsとは？Transformerの計算量を減らしつつ性能を保つ動的トークンルーティングを解説

Mixture-of-Depthsは、Transformerの各層で重要なトークンだけに重い計算を回し、他のトークンは残差経路でスキップさせる技術です。静的な計算グラフを保ちながら計算配分を動的化する仕組みと、推論高速化やモデル設計への使い道を整理します。

参照論文：Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

推論最適化

Prompt Cacheとは？共通プロンプトを再計算せずLLM推論を高速化する仕組みと使い道を解説

Prompt Cacheは、システムプロンプトやテンプレート、参照文書などの共通部分を prompt module としてキャッシュし、LLM の attention state を再利用する推論最適化技術です。KVキャッシュをリクエスト間へ拡張する考え方と実務での使い道を日本語で整理します。

参照論文：Prompt Cache: Modular Attention Reuse for Low-Latency Inference

推論最適化

BitNetとは？1.58bitでLLMを軽く速くする1-bit事前学習の仕組みと使い道を解説

BitNetは、Transformerの線形層をBitLinearに置き換え、重みを1bitまたは1.58bitで最初から学習する技術です。量子化後処理より低コストで、同規模FP16モデルに近い性能を狙う考え方を日本語で整理します。

参照論文：BitNet: 1-bit Pre-training for Large Language Models

推論最適化

LayerSkipとは？追加モデルなしでLLM推論を高速化する早期退出と自己Speculative Decodingの仕組み

LayerSkipは、LLMの中間層から早めに出力を作れるよう訓練し、同じモデルだけでspeculative decodingを行う推論最適化技術です。追加ドラフトモデルを持たずに高速化する考え方、仕組み、実務での使い道を整理します。

参照論文：LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

推論最適化

Grouped-Query Attentionとは？KVキャッシュを減らして推論を速くする仕組みと使い道

Grouped-Query Attentionは、TransformerのAttentionで使うKey/Valueヘッドを共有し、品質を保ちながら推論を軽くしやすくする技術です。GQAの仕組み、既存手法との違い、実務での使い道を日本語で整理します。

参照論文：GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

推論最適化

Speculative Decodingとは？LLM推論を品質そのままで高速化する仕組みと使い道

Speculative Decodingは、小さなドラフトモデルで先読みした候補を大きな本命モデルがまとめて検証し、出力分布を変えずにLLM推論を高速化する技術です。仕組み、評価結果、実務での使い道まで日本語で整理します。

参照論文：Fast Inference from Transformers via Speculative Decoding

推論最適化

PagedAttentionとは？LLMサービングのKVキャッシュ断片化を減らし高スループット化する仕組みと使い道

PagedAttentionは、LLM推論で肥大化するKVキャッシュをページ単位で管理し、メモリ断片化と重複を抑える技術です。vLLMの中核になったこの仕組みを、課題、実装アイデア、実験結果、開発への応用まで日本語で整理します。

参照論文：Efficient Memory Management for Large Language Model Serving with PagedAttention

推論最適化

FlashAttentionとは？長文LLMを高速・省メモリにするIO-aware Attention最適化の仕組みと使い道

FlashAttentionは、TransformerのAttentionを近似せずに高速化・省メモリ化するカーネル最適化です。なぜ長文処理で効くのか、HBMとSRAMを意識した仕組み、実験結果、開発への応用ポイントを日本語で整理します。

参照論文：FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

推論最適化

Medusaとは？LLM推論を高速化する複数デコードヘッドの仕組みと使い道

Medusaは、LLMに複数の軽量デコードヘッドを追加して複数トークンを並列予測し、推論を高速化する手法です。別のドラフトモデルを使わずに速くする考え方、仕組み、評価結果、実装へのヒントを技術的に解説します。

参照論文：Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads