タグ
#推論高速化の記事一覧
1件の記事があります。
推論最適化
Speculative Decodingとは?LLM推論を品質そのままで高速化する仕組みと使い道
Speculative Decodingは、小さなドラフトモデルで先読みした候補を大きな本命モデルがまとめて検証し、出力分布を変えずにLLM推論を高速化する技術です。仕組み、評価結果、実務での使い道まで日本語で整理します。
参照論文:Fast Inference from Transformers via Speculative Decoding