タグ
#Speculative Decodingの記事一覧
2件の記事があります。
推論最適化
Speculative Decodingとは?LLM推論を品質そのままで高速化する仕組みと使い道
Speculative Decodingは、小さなドラフトモデルで先読みした候補を大きな本命モデルがまとめて検証し、出力分布を変えずにLLM推論を高速化する技術です。仕組み、評価結果、実務での使い道まで日本語で整理します。
参照論文:Fast Inference from Transformers via Speculative Decoding
推論最適化
Medusaとは?LLM推論を高速化する複数デコードヘッドの仕組みと使い道
Medusaは、LLMに複数の軽量デコードヘッドを追加して複数トークンを並列予測し、推論を高速化する手法です。別のドラフトモデルを使わずに速くする考え方、仕組み、評価結果、実装へのヒントを技術的に解説します。
参照論文:Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads