タグ
#LayerSkipの記事一覧
1件の記事があります。
推論最適化
LayerSkipとは?追加モデルなしでLLM推論を高速化する早期退出と自己Speculative Decodingの仕組み
LayerSkipは、LLMの中間層から早めに出力を作れるよう訓練し、同じモデルだけでspeculative decodingを行う推論最適化技術です。追加ドラフトモデルを持たずに高速化する考え方、仕組み、実務での使い道を整理します。
参照論文:LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding