タグ
#Sparse Modelの記事一覧
1件の記事があります。
LLM・基盤モデル
Switch Transformerとは?計算量を増やさずにモデル容量を拡張する疎なMoEの仕組みと使い道
Switch Transformerは、トークンごとに1つの専門家だけを選ぶ疎なMixture of Expertsで、計算量を大きく増やさずにモデル容量を拡張する技術です。top-1ルーティング、負荷分散、学習安定化、実務での応用可能性を整理します。
参照論文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity