タグ

#LLM推論の記事一覧

14件の記事があります。

AIエージェント

Tree of Thoughtsとは？LLMに探索・分岐・自己評価を持ち込む推論技術

Tree of Thoughtsは、LLMの推論を1本の連続生成ではなく、複数の思考候補を探索しながら進める技術です。仕組み、実験結果、AIエージェントや複雑タスクへの使い道を日本語で解説します。

参照論文：Tree of Thoughts: Deliberate Problem Solving with Large Language Models

推論最適化

AWQとは？LLMを4bit量子化して軽く速く動かす技術

AWQは、活性値を見て重要な重みチャネルを保護しながらLLMを4bit量子化する技術です。仕組み、実験結果、推論最適化やエッジ配備への使い道を日本語で解説します。

参照論文：AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

推論最適化

SmoothQuantとは？LLMをW8A8量子化して推論を高速化する技術

SmoothQuantは、活性値の外れ値を重み側へオフラインで移し、LLMのW8A8量子化を実用化する技術です。仕組み、実験結果、推論最適化への使い道を日本語で解説します。

参照論文：SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

推論最適化

Activation Beaconとは？長文コンテキストを圧縮してLLMの文脈長と推論効率を伸ばす技術

Activation Beaconは、長い入力を beacon token のKV表現に圧縮し、LLMの短いコンテキスト窓でもより長い文脈を扱えるようにする手法です。仕組み、実験結果、RAGや長文エージェントへの使い道を日本語で解説します。

参照論文：Long Context Compression with Activation Beacon

推論最適化

Contrastive Decodingとは？追加学習なしでLLMの出力品質を改善する推論手法

Contrastive Decodingは、大きな言語モデルと小さな言語モデルの確率差を使って、繰り返しや話題逸脱を抑える推論手法です。学習不要で導入できる仕組み、実験結果、LLMアプリへの使い道を日本語で解説します。

参照論文：Contrastive Decoding: Open-ended Text Generation as Optimization

推論最適化

FlexGenとは？単一GPUで大規模LLMを高スループット実行するオフロード推論技術

FlexGenは、GPU・CPU・SSDをまたいで重みやKVキャッシュを配置し、単一GPUでも大規模LLMを高スループットで動かす推論最適化技術です。オフロード方針探索、4bit圧縮、実験結果、実務での使い道を日本語で解説します。

参照論文：FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU

推論最適化

Self-Consistencyとは？複数の推論経路から最終回答を安定化するLLM推論手法

Self-Consistencyは、LLMに複数の推論経路を生成させ、最も一貫した答えを採用する推論時手法です。Chain-of-Thoughtの弱点、仕組み、実験結果、実務での使い道を日本語で解説します。

参照論文：Self-Consistency Improves Chain of Thought Reasoning in Language Models

推論最適化

Prompt Cacheとは？共通プロンプトを再計算せずLLM推論を高速化する仕組みと使い道を解説

Prompt Cacheは、システムプロンプトやテンプレート、参照文書などの共通部分を prompt module としてキャッシュし、LLM の attention state を再利用する推論最適化技術です。KVキャッシュをリクエスト間へ拡張する考え方と実務での使い道を日本語で整理します。

参照論文：Prompt Cache: Modular Attention Reuse for Low-Latency Inference

推論最適化

LayerSkipとは？追加モデルなしでLLM推論を高速化する早期退出と自己Speculative Decodingの仕組み

LayerSkipは、LLMの中間層から早めに出力を作れるよう訓練し、同じモデルだけでspeculative decodingを行う推論最適化技術です。追加ドラフトモデルを持たずに高速化する考え方、仕組み、実務での使い道を整理します。

参照論文：LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

推論最適化

Grouped-Query Attentionとは？KVキャッシュを減らして推論を速くする仕組みと使い道

Grouped-Query Attentionは、TransformerのAttentionで使うKey/Valueヘッドを共有し、品質を保ちながら推論を軽くしやすくする技術です。GQAの仕組み、既存手法との違い、実務での使い道を日本語で整理します。

参照論文：GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

推論最適化

Speculative Decodingとは？LLM推論を品質そのままで高速化する仕組みと使い道

Speculative Decodingは、小さなドラフトモデルで先読みした候補を大きな本命モデルがまとめて検証し、出力分布を変えずにLLM推論を高速化する技術です。仕組み、評価結果、実務での使い道まで日本語で整理します。

参照論文：Fast Inference from Transformers via Speculative Decoding

推論最適化

PagedAttentionとは？LLMサービングのKVキャッシュ断片化を減らし高スループット化する仕組みと使い道

PagedAttentionは、LLM推論で肥大化するKVキャッシュをページ単位で管理し、メモリ断片化と重複を抑える技術です。vLLMの中核になったこの仕組みを、課題、実装アイデア、実験結果、開発への応用まで日本語で整理します。

参照論文：Efficient Memory Management for Large Language Model Serving with PagedAttention

推論最適化

FlashAttentionとは？長文LLMを高速・省メモリにするIO-aware Attention最適化の仕組みと使い道

FlashAttentionは、TransformerのAttentionを近似せずに高速化・省メモリ化するカーネル最適化です。なぜ長文処理で効くのか、HBMとSRAMを意識した仕組み、実験結果、開発への応用ポイントを日本語で整理します。

参照論文：FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

推論最適化

Medusaとは？LLM推論を高速化する複数デコードヘッドの仕組みと使い道

Medusaは、LLMに複数の軽量デコードヘッドを追加して複数トークンを並列予測し、推論を高速化する手法です。別のドラフトモデルを使わずに速くする考え方、仕組み、評価結果、実装へのヒントを技術的に解説します。

参照論文：Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads