タグ
#Transformerの記事一覧
1件の記事があります。
推論最適化
Mixture-of-Depthsとは?Transformerの計算量を減らしつつ性能を保つ動的トークンルーティングを解説
Mixture-of-Depthsは、Transformerの各層で重要なトークンだけに重い計算を回し、他のトークンは残差経路でスキップさせる技術です。静的な計算グラフを保ちながら計算配分を動的化する仕組みと、推論高速化やモデル設計への使い道を整理します。
参照論文:Mixture-of-Depths: Dynamically allocating compute in transformer-based language models